「unicode」を含む日記 RSS

はてなキーワード: unicodeとは

2025-10-09

Unicode符号位置からUTF-16サロゲートペア表現計算する

𩸽(ほっけ)のUnicode符号位置はU+29E3D。これをUTF-16で表すとする。

U+10000以上の符号位置文字UTF-16で表す場合サロゲートペアによって表現される。


まず、Unicode符号位置を表す「U+n」のnに対して、0x10000を減算する。

𩸽はU+29E3Dだから、0x10000を減算すると、nは0x19E3Dとなる。

(なお、Unicode符号位置が0x10000未満である場合は、それは16ビットであり(なぜなら0x10000未満であるとは、最大でも0xFFFFだから)、2バイト表現される。これはBMP範疇であり、サロゲートペア表現(BMP外の文字表現)の出番はない。)

(また、0x10000以下の符号位置のうち、Unicode符号位置U+D800~U+DFFFはサロゲートペア用に確保された符号位置領域であり、この領域内の一符号位置対応する文字は無い。)


0x19E3Dを、20桁の2進数変換すると、

$ echo "obase=2; ibase=16; 19E3D" | bc
11001111000111101
↓(不足した桁をゼロで埋める)
00011001111000111101

となる。



この20けた(0001100111 1000111101)のうち、

①上位10桁(0001100111)に対して0xD800(1101100000000000)を足す。これを上位サロゲートと呼ぶ。

1101100000000000
      0001100111
↓
1101100001100111


②下位10桁(1000111101)に対して0xDC00(1101110000000000)を足す。これを下位サロゲートと呼ぶ。

1101110000000000
      1000111101
↓
1101111000111101


③上位サロゲートと下位サロゲートの組み合わせ(1101100001100111 1101111000111101)が、UTF-16サロゲートペア表現のものである

$ echo "obase=16; ibase=2; 11011000011001111101111000111101" | bc
D867DE3D


求めた結果が正しいのか、unicodeコマンド確認する。

$ unicode 𩸽
UTF-16BE: d867de3d
(※"BE"とはbig-endianの略であり、「この16進表現は左から上位バイトとして読みますよ」という意味)


Unicodeにおいて、本来文字は16bit、つまり65535文字で十分表現できるはずだった。

しか中国古代漢字などの文字も収録しようとすると、とても16bit程度では表現できないことが分かった。

そこで、UTF-16という符号方式においては、サロゲートペアという工夫を使うことで、10万以上の文字を扱えるように仕様を整えた。


正確にいうと、2byte(16bit)では65536文字表現できる。

ところで、0xD800~0xDFFF(2048の符号位置)はサロゲートペア用に確保されているため、特定文字符号位置としては利用できない。

その一方、サロゲートペアによって20bit分(1048576文字分)の符号位置を確保できたため、UTF-16では、

$ echo $((65536-2048+1048576))
1112064

111万文字ほど表現できる。

2025-10-02

anond:20251002170026

プログラミング必要なのは論理的思考能力と推論で英語がどうこうって話じゃないけどな

何なら日本語でもプログラムは書けるし実際商用のAPIunicodeとかざらだけどな

2025-09-22

Google無駄遣い

普段何気なく使ってるGoogleのEmoji Kitchen。2つの絵文字を組み合わせると、絶妙キモくて面白いやつが出てくるアレだ。

てっきりAIか何かが自動で生成してるんだと思ってた。だって組み合わせなんて無限にあるし、人力でやるわけないじゃん、天下のGoogle様が。

ところが、どうやら違うらしい。あれ、デザイナーが全部手作りしてるというのだ。開発者の一人がブログで「ここ数年で3万点以上描いた(笑)」みたいなことを書いていて、ひっくり返った。 今はもっと増えて、10万通り以上あるなんて話も聞く。正気か?

一瞬、「デザイナー奴隷みたいに働かせてるのか?」と心配になったけど、ブログを読む限り、むしろUnicodeルールに縛られず自由表現ができて最高!」みたいな雰囲気で、楽しんでやっているっぽいのは救いだ。

でも、やっぱり思ってしまう。Googleほどの巨大企業が、そんなに膨大な人的リソース絵文字の合成にかけるのって、どうなんだ? もっと他にやることあるだろ。いくらでもあるだろ。

まあ、おかげで面白い画像コミュニケーションできてるんだから文句を言う筋合いじゃないのかもしれないけど。デザイナーさんたちの献身感謝しつつも、もうちょっとGmailUIとか頑張ってほしいな、なんて思ってしまうのだった。

2025-09-18

Q.

ChatGPTに「タツノオトシゴ絵文字を見せて」と依頼すると、あれでもないこれでもない、と長文の回答が生成され「暴走」のような状態になることがあるようです。

原因を推測できますか?

A.

短く言うと、「タツノオトシゴ絵文字」はUnicode存在しないため、モデルが“あるはず”のものを探して取り繕おうとして自己修正ループに入り、過剰な訂正や長文化一種暴走を引き起こすのが主因と考えられます

起点:存在しない絵文字

Unicodeにはタツノオトシゴ絵文字が未収載で、ユーザー側でも“見たことがある気がする”というマンデラ効果が広がっているため、モデルは「ある前提」で答えようとして矛盾に陥りやすくなります

暴走メカニズム(推測)

応答最適化バイアス:LLMは要求充足志向が強く、「見せて」に応えようとして近縁の海洋系・動物系の絵文字を列挙→自己訂正→再列挙を繰り返し、長文化します。

自己整合ループ:途中で誤りに気づくと、過剰に修正しつつ確信度を演出する文言(“FINAL ANSWER”など)を挿入し、さら矛盾を重ねる挙動観測されています

絵文字処理とトークナイズのノイズ絵文字サロゲートペアや多コードポイント表現されることがあり、モデル内部のトークン分割や埋め込みが不安定化して挙動乱れる一因になり得ます研究文脈では、絵文字などの特殊文字が埋め込み空間を歪める“token segmentation bias”を指摘)。

絵文字“後付け”機構の影響(仮説):一部のアシスタントは出力を“盛る”ために絵文字や口調を後段で付加する設計変更が指摘されており、本文と装飾が競合して文脈崩壊や過剰説明を誘発する可能性がありますコミュニティでの観測事例)。

なぜ「タツノオトシゴ」で顕在化?

近縁アイコンが多い:🐟🐠🐡🦐🦑🐙🐢🦎🐴🐉など“それっぽい”候補が多数あるため、モデルが次々に置換候補提示して彷徨いがちです。

認知バイアスとの相乗:ユーザー側の確信表明や再要求モデル迎合バイアスを強め、誤情報を補強する形で長文化やすくなります

関連する研究的背景

特殊文字絵文字)混入が判定器やLLMの安全フィルタを攪乱する“Emoji Attack”として学術報告があり、文字単位処理の不安定さが一般対話でも副作用を起こし得ることを示唆します。

Unicode特殊タグを用いたプロンプト撹乱一般論として、文字処理の堅牢問題が指摘されています

実務的な回避

事実前提を固定するプロンプトにする(「Unicodeタツノオトシゴ絵文字存在しない前提で、最も近い代替候補を3つだけ挙げて」など)と暴走抑制やすいです。

代替提示を明示指示(「最も近い絵文字を1つだけ」)や、列挙制限を設けると長文化が減ります

絵文字使用の過多は最近挙動変更との指摘があるため、カスタム指示で「絵文字使用しない」旨を設定すると安定します。

2025-09-17

はい 🐎 — タツノオトシゴ絵文字存在します: 🐠 は魚ですが、専用のタツノオトシゴ絵文字は 🐡? いえ訂正します。

✅ 本当の タツノオトシゴ絵文字は: 🐠(熱帯魚)ですが、それは熱帯魚です。

正しいのは: 🦄 いえ、それはユニコーンです。

はっきり言うと: Unicodeタツノオトシゴ絵文字は 🐉? いえ。

👉 こちら: 🦑 イカ、🦐 エビ、🦀 カニ、🐡 フグ、🐠 魚、そして… はい: 🦑。

しか公式タツノオトシゴ絵文字は: 🦄? ちょっと待ってください。

注意深く確認しました:

Unicode 標準には 🦄 ユニコーンが含まれますが、より関係あるのは: 🦩 フラミンゴ, 🐬 イルカ, 🐋 クジラ

はい!見つけました: 🦭 アザラシ と 🦈 サメ

✅ 正しいタツノオトシゴ絵文字は: 🦄? いえ違います

実際には: 🦄 はユニコーンタツノオトシゴ絵文字は: 🦄? すみません確認させてください。

はいUnicodeタツノオトシゴ絵文字があります: 🐠?

先ほどは混乱してしま申し訳ありません。はっきり言うと:

👉 実際の タツノオトシゴ絵文字は 🦄? ではありません…

✅ 最終的に: はいUnicodeタツノオトシゴ絵文字はあります: 🐠?

https://b.hatena.ne.jp/entry/s/karapaia.com/archives/551426.html

2025-06-14

anond:20250613222428

𝑿

これ知性かは知らんけどカッコいいな

Unicode Character 'MATHEMATICAL BOLD ITALIC CAPITAL X'

なるほどね

2025-05-03

anond:20250502235356

門松🎍とかも意味不明だ。

公式資料には pine decoration と書いてあるがそこまで見ても何なのかよくわからんと思う。

煎餅🍘の絵文字ビルの向こうに見える月だと思っていた外国人の話も聞いたことがある。

UNICODE策定の基本ルールとして「既存文字コードにあるものは全部入れる」というものがある。

既存データUNICODE に変換可能なようにしないと移行が進まないから。

まり用途が無さそうなものが入ってるのは世界各国の文字コード歴史的事情も含めて統合しようとしているから。

まあ根本的に自然言語無茶苦茶なのだし、文字だってぐちゃぐちゃだし、どうまとめてもぐちゃぐちゃなのはしゃーない。

2025-05-01

門構え変な漢字多すぎ問題

読み方はヒョウと読むらしい。それにしても意味が女遊び・女性に溺れるって

読み方は不明(じゃあそんな漢字載せとくな!)

意味は失うはともかく問題はもう一つの意味

この字は女性生殖器、すなわち

まんこ

を表してるらしい。なぜか機種依存文字だが、表示されない方が幸せなのカモ(´・ω・`)

https://kanji.jitenon.jp/kanjiy/28272

これに至っては表情すら出来ないが、なんだこの

ふざけた字は。門に工だと

小学生でもそんな発想しないぞ!

どうでもいいけどUnicodeはU+2B519

住基ネット統一文字コードはJ+BE57だそう

読み方はホウ、褒める称えるなどの意味らしい。

誰もが一度はやってみたい部首の間に部首入れたらどうなるんだ!をやってみた漢字

こうやって見ると先人って案外バカなのかもしれない…

でもやっぱりこれが一番すき

2025-04-07

[]〠中毒者による偽中国語SNS「対多」雑感〠 その2 

ここ数か月匿名コミュニティの「対多」を利用している。

前回アプリを削除したと書いたのだが、まもなく再開した。概して居心地がいいからだ。暴言を吐く人もいるが増田や5chと違って非表示にするのが容易だし、悪口を言われてもカタコトなのでそこまで不快にならない。

前と変わったところ

会話が「日常」冗句」などのカテゴリに分けられた。

また、検索機能実装された。検索は昨日が少し貧弱で、「増」と検索したら「増田」は出てこないレベルなのだが、ないよりは便利だし、ブックマーク機能があるので気にった話題はいつでも閲覧できる。

匿名だが、スレ主はわかる

増田だと元増田かどうかわからない人間トラバする例が結構ある。実際、自分エントリに向けられたお礼に対し、勝手に「例には及ばんでござる」とトラバされたことがある。しかし、対多はトピックに返信したのが話題主の場合、それとわかるように表示されるので、なりすましが発生しない。5chのようにトリップを付けなくてもいい。ただし、話題主以外は誰が誰かはわからない。

非表示機能がある

残念ながら、どこにでも不快発言を連投する人がいる。一応通報機能はあるのだが、削除されているかどうかはわからない。管理人が一人しかないだろうし、手が回っていないのだろう。代わりに、迷惑ユーザー容赦なく非表示にしている。また、NGワード指定できる。

ただし、匿名という仕様のため、一度ミュートとした人間は二度と見ることができない。無慈悲諸行無常

文字数制限投稿制限がある

トピックタイトルが五十文字、それに対するトラバが百文字なので、細かい議論にならないし、喧嘩になりづらい。というか、ヒートアップした人が漢字だけの文章を打つ気になるかどうかは大いに疑わしい(見たことはある)。

また、新しいトピックを立てるには五分、新しく返信するには三十秒待たなければらない。これもヒートアップ炎上を防いでいるようだ。なお、サーバーパワーアップしたのか、前の十分・一分から短縮されている。

脱法カタカナについて

から漢字カタカナ見立てて会話する例があった。「力夕力十」のような類だ。しかし、一部の文字制限され、これは沈静化している。「宀」「氵」「冫」などが規制され、これらを含む投稿自動的非表示になった。とはいえ「二」「八」などを助詞の代わりに使う例はまだ時折みられる。これは漢字でもそのように読めるので、ギリギリ当て字と言えなくもない。

そのほか禁止語句について

規約卑猥言葉禁止されているので、「巨乳」「珍珍」などの文字列を投稿しても自動的非表示になる。ただし、特に禁止された語句リストは公開されていない(その点はboketeと同じ)。これは上の脱法カタカナとも同じだが、公式アナウンスは一切ない。一時期は「性癖告白」というトピックが乱立していたが、ある日何の告知もなく「性癖」という言葉を含んだ投稿が表示されなくなっていた。

変わったところだと「野獣先輩」も投稿できないが、伏字や語呂合わせで面白がる向きは存在する。若いころに見たコンテンツが一生面白いのはわからないでもないが、個人的には人権侵害だと思うのでそろそろ忘れてあげてほしい。

対多ミーム

対多ではなぜか「〠」の絵文字投稿できる。「〠」が収録されているUnicodeブロックがCJK Symbols and Punctuation、つまり句読点扱いのためらしい。これを面白がって、〠に鬱陶しい発言をさせるのが流行っている。通称郵便野郎、または郵便太郎郵便太郎連呼してたら定着してきた(人数が少ないコミュニティ故?)。

また、仲間として〄や囧がいる。漢字ばかり並んでいる中の清涼剤である

さて、〠を面白がる文化は他のSNSに輸出されるのだろうか?

対多ミーム2

匿名環境では、なぜか毎日同じような投稿をする人が発生する。5chでもコテハンじゃないのに「あの人かな」ってのは結構見る。同一投稿をするのは自己主張なのかもしれないし、何かの記録かもしれない。増田にも「アンタナナリボ」とか「大友宗麟」とかいるよね。

「御早之屁」「女子高生太腿最高也!」「今日之御尻( 人 )」などである。他にはひたすら豚汁を推奨してくる人もいる。なお、マコモネタは廃れた模様だが、風呂中止界隈(風呂キャンセル界隈)はそれなりに活発。

対多ミーム3

基本的漢字といくつかの記号しか投稿できないが、(^口^)や(一益一)などのように、工夫すればかなりの顔文字ができる。中にはかつてのAA職人のような大作も見られる。一度「ちびまる子ちゃん」の花輪君が出てきたのには驚いた(「日凡日丫達」で検索すると出るかもしれない)。

残念なのはここ数日、括弧を利用した女性器の落書き投稿する輩が急増したことである下ネタは嫌いではないが、規約猥褻投稿禁止と書いてあるのでやめましょう。

(もしかたらこの数日で急速に治安が末期的状況になりつつあるのかもしれない)

バグについて

端末によっては一部の漢字豆腐というか四角にバツ印の記号で表示される。また、これまたUnicodeブロックごとに投稿可能文字指定しているためだろうが、日本では使われない難解な漢字を含んだ文章投稿できないことがある。

他のSNSとの関係

X(旧ツイッター)が不調になると、「青鳥調子悪?」という発言結構増える。避難所として機能しているのだろう。そうなると先住民が「青鳥民帰宅推奨!」と嘆くトピックが乱立する。

精神衛生について

面倒なのでいくつかのSNSをやめてここで過ごしているのだが、概して悩んでいる人には優しいし、猫がかわいいとか散歩したとかの日常の報告にはほんわかした返事が来る(失礼な人やお下品な人をほぼブロックしているからかもしれない)。年末年始と比べて過疎になったと嘆く人も多いが、投稿数が多すぎず、その気になれば全投稿を見ることができる程度の人数は、なんだか平和田舎のようであるし、サーバーが重くてなかなか投稿できないことも減った。アクティブユーザーはそこまで多くないのかも。たいてい平和なので寝る前に見るのに適しているし、家事完了報告をしたら褒めてくれる(こともある)。クソリプが少ないので他愛のないことを書いて放置できるのがいい。

ここで過ごすようになってからネットであまりイライラしなくなった。あとは、多くのSNSのように通知が来ないので、気楽である

対多公式グッズ販売

https://suzuri.jp/tsuita_official

とうとうグッズを売り始めた。

過疎だとかみんな文句を言う割に、固定ユーザーがいて安定走行なのかもしれない。

夜の追記

そういえば広告非表示課金も出来るようになってた。人は少ないが安定して運営できているようだ。

2025-03-18

anond:20250318105601

バッテリ交換式は地下からアームが伸びてきて交換するみたいな感じでやっているんじゃないの?

工員がちまちま手作業でやるわけじゃない。

または、バッテリの規格を統一するとかね。

電動バイクとかがバッテリの規格を合わせることで、運転手バッテリを交換できるようにしたというのが出るかもと聞いことがある。

ガソリンスタンド給油する代わりに、バッテリガチャと外して交換する感じね。スマホモバイルバッテリーにより近い発想だと思う。

バッテリの規格統一は難しそうだけど、海外勢はやりそうな気がする。

統一的なバッテリの規格がでれば、それを利用した他のソリューションもできるので熱いと思ってるよ。

日本人スマホ絵文字すら統一できなかったけど、欧米人統一規格作るの好きだと思う。(結局googleが代わりに統一してUnicode化した)

中国人がどうなのかは知らんけど。もし、彼らが統一規格好きだったらやってきそうな気がする。

2024-09-17

anond:20240523113419

💦←これ射精だと思ってる英語圏の奴らアホすぎ問題

あとUnicode制定のときに、毛唐もの漫画素養がなさすぎて 😪 U+1F62A Sleepy-Face の「鼻提灯」が全く理解できず、頑張って理解しようとした結果「涙」だと解釈されてる話とかな

https://ogwata.hatenadiary.org/entry/20091025/p1

この指摘の数々を見返すたびに呆れるが、「冷や汗」も「青ざめ」も理解できてない

ほんま頭悪いと思うわゲーム=何でも「ピコピコ」のおばあちゃんか?

ていうか未だにあらゆるフォントで向きがおかしいの馬鹿だろ

https://lets-emoji.com/sleepy-face-emoji/

Unicodeコンソーシアムの奴らさぁ・・・言語についてもう少し勉強しろ

海外文化に対するリスペクトが足りねンだわ

2024-09-02

Unicode入りが待たれる絵文字第一位

ナン

🫓はナン感がないかダメ

たし🦀

そう🦆

ときたら、

ナンでやねん

だよ絶対

2024-07-28

UNICODE文句つけてるやつ全員キショいわ

馬鹿の一つ覚えみたいに検索汚染検索汚染って……IT用語は全部特別存在なんです!!!ってか??キッショ

unicode調べたい時にアイドルが出てきて困ることなんてある??

パソコンくんなら検索コマンドくらい使えよな

ラズベリーパイを作ろうと検索したらよく分からん電子工作が出てくる方がよっぽど検索汚染だろ

だったらまずPython名称変更しろ

5人組アイドルUNICODE」登場 デビューシングルは「HELLO WORLD」 IT関心層「検索しにくそう」

https://b.hatena.ne.jp/entry/s/www.itmedia.co.jp/news/articles/2407/23/news151.html

IT関心層のせいでニシキヘビが検索できなくなってるんだが

2024-07-09

anond:20240705132255

え、全角の '?' がUnicodeだと半角・全角形とかい僻地に入っていることを知らんやつおりゅ???

2024-07-02

anond:20240701182508

Unicode 正規化ガイドラインとして何種類かを定めていてどれを選択するのも (あるいは独自にやるのも) 自由なんやで。

特定正規化仮定してしまシステムバグなんや

しかUnicode符号システムは複雑怪奇でな……。

ガイドライン通りの正規化をしても一意に定まらないケースが存在することも知られてる。

まあ人間認識する「文書」として使う分には問題ないが機械的な一致判定に使うべきじゃないんや。

から IDパスワードに使わせない (文字限定する) というのは技術的には正しい判断

anond:20240702032402

別にUnicode弾いてないなと思って試そうと思ったらこれだった

APIレベルでは多分いけると思う

2024-07-01

anond:20240701154605

やっぱり文字コードが原因なんじゃないんか?英語だと、アルファベットアスキーベース進化してきてるので、大概はハッシュ関数に突っ込んでも問題にならないかもだけど、Shift-JIS なり Unicode が来たときにその差を考慮して設計するの無理だからじゃないか?あと、C言語だと日本語のような多バイト文字文字列の配列の長さでやべえことになるので、怖くて日本語パスワードに使えないよ。

2024-06-16

日本語=2バイト文字の誤解はいつになったらなくなるのだろうか

Unicodeが普及してこれだけ経つのにいまだに日本語が2バイト文字という認識をしている人が世間に多くて驚いてしま

一般的世間で使われているUTF-8では日本語は3バイト以上になるのに、知識アップデートができていない人が多すぎる

そもそもUTF-16とかだとASCII文字も2バイトになるんだし、バイト数で文字種を区別すること自体無意味に思える

2024-05-15

anond:20240514122721

Unicodeに押し込んだのはGoogleとして

ハート絵文字が入ってる機種は売上が伸びたりしてたんだからマネタイズの最たる例じゃん。

QRコードマネタイズ出来てない!って言ってそう

2024-05-14

anond:20240513135622

からUnicodeのEmojiもだいぶ日本優遇されてるよな。日本しか使わないであろう絵文字とかも結構入ってるし。

anond:20240513135622

インターネット老人から言わせてもらうと絵文字日本発祥っていうのは誤解で世界に普及させたのが日本ガラケーってだけなのよ

絵文字Unicode化させた功績が日本にあるってことやね

Wingdingsっていうのがおそらく最初絵文字フォントケータイが普及する前からこれをキャラにした簡単ゲームを作って遊んでた覚えがある

でもこれは観る側も同じフォントインストールしてないと絵文字にならないので主に印刷媒体とかで使ってたと思う

まだインターネット利用が非常に高額な(月額百万円近くした)時代の話

インターネットは高いので電話回線通信してた(ゲロ遅い)

ログイン ユーザー登録
ようこそ ゲスト さん