UTF-8でエンコードされたテキストファイルがある。
頭から読んでいって840文字ずつ分けるとくそ遅い。
そこでどうしたものかと考えたら、UTF-8は1~8バイトで構成され、1,2,3,4,5,6,7,8の最小公倍数は840なので、840バイト単位でマップドファイルのビューを作って、840バイト単位でビューを動かせば問題なく動くんだろうか?
それとも絵文字やIVSの途中にはまってしまい、エンコーダーが例外を吐くんだろうか?
個人的には問題ないと思うが、問題ないという確証がもてねえ。
Permalink | 記事への反応(1) | 13:09
ツイートシェア
838バイト目に3バイトの文字が来たらおかしくならない?
確かに。 気づかんかった。