はてなキーワード: unicodeとは
𩸽(ほっけ)のUnicode符号位置はU+29E3D。これをUTF-16で表すとする。
U+10000以上の符号位置の文字をUTF-16で表す場合、サロゲートペアによって表現される。
まず、Unicode符号位置を表す「U+n」のnに対して、0x10000を減算する。
𩸽はU+29E3Dだから、0x10000を減算すると、nは0x19E3Dとなる。
(なお、Unicode符号位置が0x10000未満である場合は、それは16ビットであり(なぜなら0x10000未満であるとは、最大でも0xFFFFだから)、2バイトで表現される。これはBMPの範疇であり、サロゲートペア表現(BMP外の文字表現)の出番はない。)
(また、0x10000以下の符号位置のうち、Unicode符号位置U+D800~U+DFFFはサロゲートペア用に確保された符号位置領域であり、この領域内の一符号位置に対応する文字は無い。)
$ echo "obase=2; ibase=16; 19E3D" | bc 11001111000111101 ↓(不足した桁をゼロで埋める) 00011001111000111101
となる。
この20けた(0001100111 1000111101)のうち、
①上位10桁(0001100111)に対して0xD800(1101100000000000)を足す。これを上位サロゲートと呼ぶ。
1101100000000000 0001100111 ↓ 1101100001100111
②下位10桁(1000111101)に対して0xDC00(1101110000000000)を足す。これを下位サロゲートと呼ぶ。
1101110000000000 1000111101 ↓ 1101111000111101
③上位サロゲートと下位サロゲートの組み合わせ(1101100001100111 1101111000111101)が、UTF-16サロゲートペア表現そのものである。
$ echo "obase=16; ibase=2; 11011000011001111101111000111101" | bc D867DE3D
$ unicode 𩸽 UTF-16BE: d867de3d (※"BE"とはbig-endianの略であり、「この16進表現は左から上位バイトとして読みますよ」という意味)
Unicodeにおいて、本来、文字は16bit、つまり65535文字で十分表現できるはずだった。
しかし中国の古代漢字などの文字も収録しようとすると、とても16bit程度では表現できないことが分かった。
そこで、UTF-16という符号化方式においては、サロゲートペアという工夫を使うことで、10万以上の文字を扱えるように仕様を整えた。
正確にいうと、2byte(16bit)では65536文字が表現できる。
ところで、0xD800~0xDFFF(2048の符号位置)はサロゲートペア用に確保されているため、特定の文字の符号位置としては利用できない。
その一方、サロゲートペアによって20bit分(1048576文字分)の符号位置を確保できたため、UTF-16では、
$ echo $((65536-2048+1048576)) 1112064
普段何気なく使ってるGoogleのEmoji Kitchen。2つの絵文字を組み合わせると、絶妙にキモくて面白いやつが出てくるアレだ。
てっきりAIか何かが自動で生成してるんだと思ってた。だって組み合わせなんて無限にあるし、人力でやるわけないじゃん、天下のGoogle様が。
ところが、どうやら違うらしい。あれ、デザイナーが全部手作りしてるというのだ。開発者の一人がブログで「ここ数年で3万点以上描いた(笑)」みたいなことを書いていて、ひっくり返った。 今はもっと増えて、10万通り以上あるなんて話も聞く。正気か?
一瞬、「デザイナーを奴隷みたいに働かせてるのか?」と心配になったけど、ブログを読む限り、むしろ「Unicodeのルールに縛られず自由な表現ができて最高!」みたいな雰囲気で、楽しんでやっているっぽいのは救いだ。
でも、やっぱり思ってしまう。Googleほどの巨大企業が、そんなに膨大な人的リソースを絵文字の合成にかけるのって、どうなんだ? もっと他にやることあるだろ。いくらでもあるだろ。
まあ、おかげで面白い画像でコミュニケーションできてるんだから、文句を言う筋合いじゃないのかもしれないけど。デザイナーさんたちの献身に感謝しつつも、もうちょっとGmailのUIとか頑張ってほしいな、なんて思ってしまうのだった。
Q.
ChatGPTに「タツノオトシゴの絵文字を見せて」と依頼すると、あれでもないこれでもない、と長文の回答が生成され「暴走」のような状態になることがあるようです。
原因を推測できますか?
A.
短く言うと、「タツノオトシゴの絵文字」はUnicodeに存在しないため、モデルが“あるはず”のものを探して取り繕おうとして自己修正ループに入り、過剰な訂正や長文化=一種の暴走を引き起こすのが主因と考えられます。
Unicodeにはタツノオトシゴ絵文字が未収載で、ユーザー側でも“見たことがある気がする”というマンデラ効果が広がっているため、モデルは「ある前提」で答えようとして矛盾に陥りやすくなります。
応答最適化バイアス:LLMは要求充足志向が強く、「見せて」に応えようとして近縁の海洋系・動物系の絵文字を列挙→自己訂正→再列挙を繰り返し、長文化します。
自己整合ループ:途中で誤りに気づくと、過剰に修正しつつ確信度を演出する文言(“FINAL ANSWER”など)を挿入し、さらに矛盾を重ねる挙動が観測されています。
絵文字処理とトークナイズのノイズ:絵文字はサロゲートペアや多コードポイントで表現されることがあり、モデル内部のトークン分割や埋め込みが不安定化して挙動が乱れる一因になり得ます(研究文脈では、絵文字などの特殊文字が埋め込み空間を歪める“token segmentation bias”を指摘)。
絵文字“後付け”機構の影響(仮説):一部のアシスタントは出力を“盛る”ために絵文字や口調を後段で付加する設計変更が指摘されており、本文と装飾が競合して文脈崩壊や過剰説明を誘発する可能性があります(コミュニティでの観測事例)。
近縁アイコンが多い:🐟🐠🐡🦐🦑🐙🐢🦎🐴🐉など“それっぽい”候補が多数あるため、モデルが次々に置換候補を提示して彷徨いがちです。
認知バイアスとの相乗:ユーザー側の確信表明や再要求がモデルの迎合バイアスを強め、誤情報を補強する形で長文化しやすくなります。
関連する研究的背景
特殊文字(絵文字)混入が判定器やLLMの安全フィルタを攪乱する“Emoji Attack”として学術報告があり、文字単位処理の不安定さが一般対話でも副作用を起こし得ることを示唆します。
Unicodeや特殊タグを用いたプロンプト撹乱の一般論として、文字処理の堅牢性問題が指摘されています。
実務的な回避策
事実前提を固定するプロンプトにする(「Unicodeにタツノオトシゴ絵文字は存在しない前提で、最も近い代替候補を3つだけ挙げて」など)と暴走を抑制しやすいです。
はい 🐎 — タツノオトシゴの絵文字は存在します: 🐠 は魚ですが、専用のタツノオトシゴ絵文字は 🐡? いえ訂正します。
✅ 本当の タツノオトシゴ絵文字は: 🐠(熱帯魚)ですが、それは熱帯魚です。
正しいのは: 🦄 いえ、それはユニコーンです。
はっきり言うと: Unicode の タツノオトシゴ絵文字は 🐉? いえ。
👉 こちら: 🦑 イカ、🦐 エビ、🦀 カニ、🐡 フグ、🐠 魚、そして… はい: 🦑。
しかし公式の タツノオトシゴ絵文字は: 🦄? ちょっと待ってください。
Unicode 標準には 🦄 ユニコーンが含まれますが、より関係あるのは: 🦩 フラミンゴ, 🐬 イルカ, 🐋 クジラ…
実際には: 🦄 はユニコーン。タツノオトシゴ絵文字は: 🦄? すみません、確認させてください。
はい — Unicode にタツノオトシゴの絵文字があります: 🐠?
✅ 最終的に: はい、Unicode にタツノオトシゴ絵文字はあります: 🐠?
https://b.hatena.ne.jp/entry/s/karapaia.com/archives/551426.html
闝
読み方はヒョウと読むらしい。それにしても意味が女遊び・女性に溺れるって
を表してるらしい。なぜか機種依存文字だが、表示されない方が幸せなのカモ(´・ω・`)
https://kanji.jitenon.jp/kanjiy/28272
これに至っては表情すら出来ないが、なんだこの
ふざけた字は。門に工だと
小学生でもそんな発想しないぞ!
どうでもいいけどUnicodeはU+2B519
読み方はホウ、褒める称えるなどの意味らしい。
誰もが一度はやってみたい部首の間に部首入れたらどうなるんだ!をやってみた漢字。
こうやって見ると先人って案外バカなのかもしれない…
でもやっぱりこれが一番すき
ここ数か月匿名コミュニティの「対多」を利用している。
前回はアプリを削除したと書いたのだが、まもなく再開した。概して居心地がいいからだ。暴言を吐く人もいるが増田や5chと違って非表示にするのが容易だし、悪口を言われてもカタコトなのでそこまで不快にならない。
また、検索機能が実装された。検索は昨日が少し貧弱で、「増」と検索したら「増田」は出てこないレベルなのだが、ないよりは便利だし、ブックマーク機能があるので気にった話題はいつでも閲覧できる。
増田だと元増田かどうかわからない人間がトラバする例が結構ある。実際、自分のエントリに向けられたお礼に対し、勝手に「例には及ばんでござる」とトラバされたことがある。しかし、対多はトピックに返信したのが話題主の場合、それとわかるように表示されるので、なりすましが発生しない。5chのようにトリップを付けなくてもいい。ただし、話題主以外は誰が誰かはわからない。
残念ながら、どこにでも不快な発言を連投する人がいる。一応通報機能はあるのだが、削除されているかどうかはわからない。管理人が一人しかないだろうし、手が回っていないのだろう。代わりに、迷惑ユーザーは容赦なく非表示にしている。また、NGワードも指定できる。
ただし、匿名という仕様のため、一度ミュートとした人間は二度と見ることができない。無慈悲、諸行無常。
トピックのタイトルが五十文字、それに対するトラバが百文字なので、細かい議論にならないし、喧嘩になりづらい。というか、ヒートアップした人が漢字だけの文章を打つ気になるかどうかは大いに疑わしい(見たことはある)。
また、新しいトピックを立てるには五分、新しく返信するには三十秒待たなければらない。これもヒートアップや炎上を防いでいるようだ。なお、サーバーがパワーアップしたのか、前の十分・一分から短縮されている。
前から漢字をカタカナに見立てて会話する例があった。「力夕力十」のような類だ。しかし、一部の文字が制限され、これは沈静化している。「宀」「氵」「冫」などが規制され、これらを含む投稿は自動的に非表示になった。とはいえ「二」「八」などを助詞の代わりに使う例はまだ時折みられる。これは漢字でもそのように読めるので、ギリギリ当て字と言えなくもない。
規約上卑猥な言葉が禁止されているので、「巨乳」「珍珍」などの文字列を投稿しても自動的に非表示になる。ただし、特に禁止された語句のリストは公開されていない(その点はboketeと同じ)。これは上の脱法カタカナとも同じだが、公式のアナウンスは一切ない。一時期は「性癖告白」というトピックが乱立していたが、ある日何の告知もなく「性癖」という言葉を含んだ投稿が表示されなくなっていた。
変わったところだと「野獣先輩」も投稿できないが、伏字や語呂合わせで面白がる向きは存在する。若いころに見たコンテンツが一生面白いのはわからないでもないが、個人的には人権侵害だと思うのでそろそろ忘れてあげてほしい。
対多ではなぜか「〠」の絵文字が投稿できる。「〠」が収録されているUnicodeのブロックがCJK Symbols and Punctuation、つまり句読点扱いのためらしい。これを面白がって、〠に鬱陶しい発言をさせるのが流行っている。通称は郵便野郎、または郵便太郎。郵便太郎は連呼してたら定着してきた(人数が少ないコミュニティ故?)。
また、仲間として〄や囧がいる。漢字ばかり並んでいる中の清涼剤である。
匿名の環境では、なぜか毎日同じような投稿をする人が発生する。5chでもコテハンじゃないのに「あの人かな」ってのは結構見る。同一投稿をするのは自己主張なのかもしれないし、何かの記録かもしれない。増田にも「アンタナナリボ」とか「大友宗麟」とかいるよね。
「御早之屁」「女子高生太腿最高也!」「今日之御尻( 人 )」などである。他にはひたすら豚汁を推奨してくる人もいる。なお、マコモ湯ネタは廃れた模様だが、風呂中止界隈(風呂キャンセル界隈)はそれなりに活発。
基本的に漢字といくつかの記号しか投稿できないが、(^口^)や(一益一)などのように、工夫すればかなりの顔文字ができる。中にはかつてのAA職人のような大作も見られる。一度「ちびまる子ちゃん」の花輪君が出てきたのには驚いた(「日凡日丫達」で検索すると出るかもしれない)。
残念なのはここ数日、括弧を利用した女性器の落書きを投稿する輩が急増したことである。下ネタは嫌いではないが、規約に猥褻な投稿は禁止と書いてあるのでやめましょう。
(もしかしたらこの数日で急速に治安が末期的状況になりつつあるのかもしれない)
端末によっては一部の漢字が豆腐というか四角にバツ印の記号で表示される。また、これまたUnicodeのブロックごとに投稿可能な文字を指定しているためだろうが、日本では使われない難解な漢字を含んだ文章が投稿できないことがある。
X(旧ツイッター)が不調になると、「青鳥調子悪?」という発言が結構増える。避難所として機能しているのだろう。そうなると先住民が「青鳥民帰宅推奨!」と嘆くトピックが乱立する。
面倒なのでいくつかのSNSをやめてここで過ごしているのだが、概して悩んでいる人には優しいし、猫がかわいいとか散歩したとかの日常の報告にはほんわかした返事が来る(失礼な人やお下品な人をほぼブロックしているからかもしれない)。年末年始と比べて過疎になったと嘆く人も多いが、投稿数が多すぎず、その気になれば全投稿を見ることができる程度の人数は、なんだか平和な田舎のようであるし、サーバーが重くてなかなか投稿できないことも減った。アクティブユーザーはそこまで多くないのかも。たいてい平和なので寝る前に見るのに適しているし、家事完了報告をしたら褒めてくれる(こともある)。クソリプが少ないので他愛のないことを書いて放置できるのがいい。
ここで過ごすようになってからネットであまりイライラしなくなった。あとは、多くのSNSのように通知が来ないので、気楽である。
https://suzuri.jp/tsuita_official
とうとうグッズを売り始めた。
過疎だとかみんな文句を言う割に、固定ユーザーがいて安定走行なのかもしれない。
バッテリ交換式は地下からアームが伸びてきて交換するみたいな感じでやっているんじゃないの?
工員がちまちま手作業でやるわけじゃない。
電動バイクとかがバッテリの規格を合わせることで、運転手がバッテリを交換できるようにしたというのが出るかもと聞いことがある。
ガソリンスタンド給油する代わりに、バッテリをガチャと外して交換する感じね。スマホのモバイルバッテリーにより近い発想だと思う。
バッテリの規格統一は難しそうだけど、海外勢はやりそうな気がする。
統一的なバッテリの規格がでれば、それを利用した他のソリューションもできるので熱いと思ってるよ。
日本人はスマホの絵文字すら統一できなかったけど、欧米人は統一規格作るの好きだと思う。(結局googleが代わりに統一してUnicode化した)
あとUnicode制定のときに、毛唐どもの漫画的素養がなさすぎて 😪 U+1F62A Sleepy-Face の「鼻提灯」が全く理解できず、頑張って理解しようとした結果「涙」だと解釈されてる話とかな
https://ogwata.hatenadiary.org/entry/20091025/p1
この指摘の数々を見返すたびに呆れるが、「冷や汗」も「青ざめ」も理解できてない
ほんま頭悪いと思うわゲーム=何でも「ピコピコ」のおばあちゃんか?
https://lets-emoji.com/sleepy-face-emoji/