「SJIS」を含む日記

はてなキーワード: SJISとは

2025-11-22

■ChatGPT すごい

utf8の文字コードで構成されたバイナリーファイルがある。このファイルの改行の数を数えよ。改行はCRのみとする。このファイルにはCR が必ず含まれており、CRで分割すればマルチスレッドで処理できる。

と質問したら、c++とpython のコードが出てきた

size_t count_cr_in_file(const std::string& path) {
std::ifstream fs(path, std::ios::binary);
fs.seekg(0, std::ios::end);
size_t size = fs.tellg();
fs.seekg(0);
const size_t thread_count = std::thread::hardware_concurrency();
const size_t chunk_size = size / thread_count;
std::vector<std::future<size_t>> futures;
for (size_t t = 0; t < thread_count; t++) {
size_t start = t * chunk_size;
size_t end = (t == thread_count - 1 ? size : (t + 1) * chunk_size);
futures.push_back(std::async(std::launch::async, [start, end, &path]() {
std::ifstream fs(path, std::ios::binary);
fs.seekg(start);
size_t count = 0;
for (size_t i = start; i < end; i++) {
char c;
fs.read(&c, 1);
if (c == '\r') count++;
}
return count;
}));
}
size_t total = 0;
for (auto& f : futures) total += f.get();
return total;
}

def count_cr(path):
import mmap
with open(path, "rb") as f:
mm = mmap.mmap(f.fileno(), 0, access=mmap.ACCESS_READ)
return mm.count(b'\r')

c#で書けと指示したところ、

using System;
using System.IO;
using System.IO.MemoryMappedFiles;
using System.Threading.Tasks;
class CountCR
{
public static long CountCRInFile(string path)
{
using var mmf = MemoryMappedFile.CreateFromFile(path, FileMode.Open, null);
using var accessor = mmf.CreateViewAccessor(0, 0, MemoryMappedFileAccess.Read);
long fileSize = accessor.Capacity;
int processorCount = Environment.ProcessorCount;
long chunkSize = fileSize / processorCount;
long total = 0;
object lockObj = new object();
Parallel.For(0, processorCount, i =>
{
long start = i * chunkSize;
long end = (i == processorCount - 1) ? fileSize : (i + 1) * chunkSize;
long localCount = 0;
byte b;
for (long pos = start; pos < end; pos++)
{
accessor.Read(pos, out b);
if (b == 0x0D) // CR
localCount++;
}
lock (lockObj)
{
total += localCount;
}
});
return total;
}
static void Main(string[] args)
{
string path = "yourfile.bin";
long count = CountCRInFile(path);
Console.WriteLine($"CR count = {count}");
}
}

というコードが出てきた。

実際はcr lf,lfもあり得るんだが、そこは考慮しなくてもよく、そう考えるとaiはすごいとしか言いようがない。

なお、utf8として成立する単位で区切りつつ改行を数える場合、もう一工夫いる。

（SJISもできるようにするともっと面倒なことになりそう…）

Permalink | 記事への反応(2) | 09:50

2025-09-18

■anond:20250918220737

「今どきos 依存ではないあるとすれば接続する外部システムのIFがSJIS しか受け付けないとかいうレガシーシステムだから通信時のみ変換するとか」

これへの返信も兼ねてるから別ツリーにするとわけわからんなるで

Permalink | 記事への反応(0) | 22:09

2025-08-01

■おまえたちが知らなさそうなこと

剃刀の刃は燃すゴミ

かみそり(持ち手がプラスチック製) 燃やすごみ刃の部分はカバー等を付け、刃が出ないようにする。
かみそり機(電気かみそり機) 燃やすごみ電池・充電池等は抜く。充電式で充電池を取り外せないものは、他の燃やすごみとは別の袋で出す。
かみそりの刃(カートリッジ式) 燃やすごみケースに入れるか、紙で包むなどして出す。
横浜市ごみと資源物の出し方「かみそり」を含む検索結果

かみそり(持ち手がプラスチック製)	燃やすごみ	刃の部分はカバー等を付け、刃が出ないようにする。
かみそり機(電気かみそり機)	燃やすごみ	電池・充電池等は抜く。充電式で充電池を取り外せないものは、他の燃やすごみとは別の袋で出す。
かみそりの刃(カートリッジ式)	燃やすごみ	ケースに入れるか、紙で包むなどして出す。

＊ひげそり＆ボディー用カミソリの「刃」　正しい捨て方を知ってる？

Permalink | 記事への反応(0) | 16:15

2024-09-24

■anond:20240924174252

BOM付CSV「CSVです」

BOM無しUTF8CSV「CSVです」

SJISですが特殊文字在りCSV「CSVです」

"は無くても改行可CSV「CSVです」

”の囲み省略は許さないCSV「CSVです」

”のエスケープ方法が\”CSV「CSVです」

Permalink | 記事への反応(0) | 17:57

2024-03-21

■シフトジス

Shift JISって

Shift JISとSJISとMS932とWindows31Jとかいろいろあって大変だなー

Permalink | 記事への反応(1) | 16:03

2023-10-31

■ホラーに使われる文字化けに思う

https://anond.hatelabo.jp/20231030123322

こんな怪談パロがあったが

ホラーで文字化け結構使われるよね。

ぱっと検索した感じだとこんなのとか（https://www.youtube.com/watch?app=desktop&v=p_i5dJivlqg）

怖い文字化けって、大体UTF-8の文字をSJISで開いたときのパターンなんだよね

おかしいよね。

霊や人外が、人間やコンピュータが理解できないデータを送ったり、念により誤作動を起こさせるというのはフィクションとして理解はできる。

で、スマホ等は現在一般的にUTF-8で文字列を解釈するわけじゃん。

だとしたら、不明なバイナリデータをUTF-8で展開したパターンの文字化けであるべきじゃない？

それとも、霊や人外が、人間の持っている端末のプログラムを変えてSJIS 対応に変えちゃったってわけ？

Permalink | 記事への反応(1) | 17:28

2023-04-19

■anond:20230419224037

俺もSJIS ツールよく作らされたわー

Permalink | 記事への反応(0) | 22:41

2023-01-13

■

sjisとutf8が混在してる馬鹿うんちレガシーコードをメンテする羽目になったんですけど

vscodeで正常にgrepする方法ないですかね

秀丸なら上手くいくんですけどいまどき秀丸とか使いたくないんですよね

Permalink | 記事への反応(1) | 11:14

2023-01-02

■ 三流エンジニアがやりがちなミス

タイムゾーン考えずに時間を使う

暗黙的にJSTとして時間を使ったせいでUTCで作った場所で盛大にバグる

応急処置でバグったところを+9とかやってしまうと、それ以降に逆に誰も気付かずに更に影響範囲が拡がったりする

海外展開しようとしたときにバグに気付くがどうしようもなくなって途方にくれて海外だけは別アプリになったりする

UNIXTIMEを使えば楽なんだけれど、そうすると生データぱっと見で時間を判別できないので困ることも多い

素直にUTCでISO8601が良い

文字コードはUTF-8だと大丈夫だと思ってしまう

とりあえずUTF-8にしとけば大丈夫、ってことで実装を進めた結果、Mac/Winでハマる

他にもBOMでハマったりして、むしろ SJISの方が良かったんじゃ無いか、とか言い出す

DBが統一的になっている場合はまだ後からどうにかできるが、変なところでキャッシュされてたりすると凄い困ることになる

MySQLなりPostgreSQLなりでUTF-8を正しく扱う方法はいろんな記事があるのでちゃんと読んでおけば問題無い

価格を浮動小数にしてしまう

「将来的にはグローバル展開が必要」

とかよく分からないことを言い出して価格を浮動小数にしてしまう

確かに米国なら$2.43みたいな感じで価格を使ったりするし、むしろ小数点以下が無い通貨の方が珍しいのだけれど

丸め誤差を考えないで作ってしまってバグが見つかりめちゃくちゃ揉める

応急処置として丸め機能とかが追加されて事なきを得るけれど

そもそも最小単位で扱って表示の時に小数化すれば良いだけ

他にある？

Permalink | 記事への反応(0) | 00:06

2022-11-28

■anond:20221128232527

未だにSJIS使ってる……？

Permalink | 記事への反応(0) | 23:27

2022-11-23

■anond:20221123111119

そもそも2バイトだったのはSJISの話だからutf8では2バイト文字じゃないよ

Permalink | 記事への反応(0) | 11:13

2022-10-13

■ロシア語のフォント

日本語ページの中で使われるロシア語のフォント。

https://ja.wikipedia.org/wiki/2022%E5%B9%B4%E3%83%AD%E3%82%B7%E3%82%A2%E3%81%AE%E3%82%A6%E3%82%AF%E3%83%A9%E3%82%A4%E3%83%8A%E4%BE%B5%E6%94%BB

幅が漢字やひらがなと同じで間が抜けてるよね。

昔のSJISの、２バイト文字の幅は１バイト文字(半角)の倍って習慣が残ってるんだろうけど、UTF-8の時代なんだからフォントのデザインをそろそろ変えてほしい。

Permalink | 記事への反応(0) | 13:55

2020-12-27

■anond:20201227095922

Unicodeだったらほんの名前　 SJISだったらプログラム　 DBの保存用設定で区別がつくし　そんなもの　エンドユーザーには関係ない　作りてだけだから　ここであってる　発売時には　まちがいなく除去されるからな

Permalink | 記事への反応(0) | 10:02

ごく簡単なやり方では　プログラムはSJIS　データはUnicodeで保存しておけばいい　なにをどうかんがえたら　いまどき　データをSJISで入れるのか？　こっちとしては　HELLO ＪＡＰＡＮってデータを入れときゃいいだけだ　それがSJISでしまわれていれば　プログラムがはいっているから　わけている　ほかは全部UCS2ってのは　みりゃわかる　だから DBを変換せずにSJISでのこしつづける　それだけだ　いいかたをかえれば　日本語は他にはないってわかるから

Permalink | 記事への反応(2) | 09:59

2020-11-13

■

他社のシステムとデータのやり取りするけど、フォーマットはが相変わらずのSJISのCSV ファイル。

どう考えてもJSONのほうが楽なのに。

Permalink | 記事への反応(3) | 21:37

2020-09-14

■anond:20200914175558

ソースコードの改造０（SJIS から UCS2への変更）で４０００万円ぐらいほしい

Permalink | 記事への反応(0) | 17:58

2020-07-30

■anond:20200730111020

のりでUCS2でつくっててSJISに戻すのわすれていてすみません

Permalink | 記事への反応(1) | 11:11

■anond:20200730110920

L"さまざまな配慮でSJISがきついので、弊社の努力が及んでいないのですが、弊社のわがままでUCS2にしてもよろしいでしょうか？"

Permalink | 記事への反応(1) | 11:10

■anond:20200730110813

さまざまな配慮でSJISがきついので、弊社の努力が及んでいないのですが、弊社のわがままでUCS2にしてもよろしいでしょうか？

Permalink | 記事への反応(1) | 11:09

2020-07-01

■

なんていうか、AT&Tがなんていうかだから

アメリカンスタンダードに従えみたいな話ではあるんだけどUnicodeが世界標準火？というと

標準化団体の難しい問題があって　SJISやJISでは何故駄目なんだ問題というのが勃発するのと同じように　あなたの国ではUnicodeというのも　厳しい時がある。

あくまでもその標準化団体が決めているUnicodeではというしかなくて　いちおう国際会議で決めているとかはあるんだけど

批准しないこともできて　結局　国ごとというのがあって　めんどう

Permalink | 記事への反応(1) | 15:17

2019-07-01

■anond:20190701192421

BSDを似非 Linuxとして使うんじゃなくて正真正銘のLinuxをデスクトップ Linuxという地獄の外から使えるなら、大分マシになるだろうよ

タダまぁ、日本語圏の人は文字コードという新たな地獄に片足突っ込む覚悟が必要だが。

windows10の日本語ロケールをsjis からUTF8に設定可能になってしばらく経つが、人柱の噂は全く聞かんなぁ

Permalink | 記事への反応(0) | 19:40

2019-04-10

■PC98版 YU-NOのメッセージ ファイルフォーマット

アニメがはじまったついでにPC98版 YU-NOのメッセージファイルフォーマットを解析してみた。

メッセージ ファイル

"*.MES"

ファイルの構成

+0　offset(2byte)

+2　辞書データ(offset - 2 byte) sjis2byte 文字のつめあわせ

+offset　データ本体(ファイルの終わりまで)

データ形式

0x06	次の0x06までのデータがファイル名
0x11	入力待ち
0xC0-0xCF,0x60-0x7F	0x20を足して次の1byteを追加すればsjisの1文字になる
0xD0-0xFF	0xD0を引いて2倍した数値に該当する辞書データの1文字
0x133003	主人公の名前に置き換え