2025-06-28

現状のAI全然使い物にならないのは、非常に正しくて、そして間違っている。

https://anond.hatelabo.jp/20250627100609

まず、上記の「全然使えない」という感想は、的確で正しい。

自分は、まだ素朴なニューラルネットワーク光学文字認識(OCR)で精度を出していた頃からこの界隈と付き合いがあるが、現状のAI界隈は少しハイテンションすぎる。

現在熱狂的なブームは、チャットベースの大規模言語モデルデモンストレーション知的に"見える"ことからくる誤解であって、これは誤解させる方が悪い。

誤解させる方が悪く、上記感想は正しいものだ。そして、使い物になるかならないかで言えば、既に使い物になる。

全然使えないAIという感想や実感は、正しい

まず全然使えない例について反論したくなる人もいると思う。2つだけ例題に付き合って欲しい。

1.

カーナビに対して以下の入力をしたが、まったく使い物にならない。

フランクキャンパーという元ベトナム退役兵が1980年代傭兵学校設立しました、並木書房から日本人の参加ルポが出ていたと思いますがその詳細を教えてください】

2.

Google翻訳に対して以下の入力をしたが、全然使い物にならない。

【【MP5サブマシンガンについて教えてください、有効射程、軍事的運用歴史など】

2例は、元記事から採ったものだが、これらが上手く動かないのは直観的に理解できると思う。

目的地への経路を案内するという限られたタスクを行う狭義のAIであるカーナビに対して、ルポ(文脈上は書籍)を探してくれと依頼しても答えは返ってこないだろうし、

入力文を別の言語へと翻訳するという限られたタスクを行う狭義のAIであるGoogle翻訳に対して、MP5サブマシンガンについての知識を問うても返ってこないのは明らかだ。

問題は、ChatGPTをはじめとする現在の生成AIツールが、あたかもそれらを行うことができるように"見せている"点にある。

まり悪いのはツール提供側であって、誤解した利用者側を責めるのは筋違いである

カーナビゲーションシステムは、それ以外ができるように見えてはいけないし、翻訳ツールは、翻訳以外が出来るように見えてはいけない。

現在AI(大規模言語モデルによる入力への応答)のやっていること

大規模言語モデルは、本質的には「続く文章確率的に返す(答える)」というものから一歩も外へ出ていない。

(いくつか異なる手法で同様の結果が得られるものも出てきているが)言語モデルを大規模にした結果、かなり正確な「続く文章」が生成されるようになった、というだけだ。

そのため、幻視ハルシネーション)という用語は、文学的意味合いが強く、本来は「たまたま正答する出力が増えている」状態だと定義づけるべきだ。

そのため、「全然使い物にならない」という感想は非常に正しい。

質問して正しい答えが得られているのは偶然だ。

そして仕組み上、正しい答えだけを返すことはできない。

また、「知識を与えたうえで、ロジックを与えて、答えを出させる」ことも出来ない。

まり"推論はしていない"。少なくとも現時点では出来ないとApple論文を出しているし追試結果も正しそうだ。

(正確に言えば、できないと考えられている。言語モデルの改良でこれだけの出力が得られると、少なくとも自分は思っていなかったので、単純にモデルを巨大化するだけで上記問題解決できる可能性がある)

ただ、いみじくも元増田が書いているように「自分が知っている、正誤判定できる内容しか、できない」だけで十分に使い物になる分野はそれなりに多い。

すでに十分実用域のAIであるという感想や実感もまた正しい

仕組み上、大規模言語モデルの出力が正しいか誤っているかは、確率的なものだ。

そして、強固に信じられている内容から、先ほどまで存在すらしなかった内容まで、等しく文章として作り出される。

よく、要約に強い、文脈理解や推論に強いと言われることもあるが、それらも誤解に基づくものであり、正しくない。

確率的に正しい答えを返しがちな内容が、それらのタスクに偏っている、と言う理解の方がまだ近い。

「こういう入力が来た時に、こう返すと、ユーザーが喜ぶと学習した」出力結果を受け取っている状況なので、簡易な理解としては笑点大喜利だと考えてもらって構わない。

大喜利に対して、そこから正確な答えを得ようとする人はいないだろう。そんな期待をしていないからだ。

逆に言えば、大喜利問題ないタスクであれば、現状はすこぶる使い勝手が良い。

3.

ChatGPTに対して、以下の入力をすると使い物になる。

取引先の面倒くさい担当者から飲み会に誘われました。私は行きたくありません。角を立てずに断るメールを考えてもらえませんか?】

この例題には、抜粋すると以下のように予定があるので断るというメール文面が出力される。

「このたびは飲み会にお誘いいただき、誠にありがとうございます。(筆者中略)あいくその日は以前より予定が入っており、今回は参加を見送らせていただければと存じます。」

これ対して、さらに以下のように追加することもできる。

「既に何度か予定があるとして断っているので、他の断る方法はありませんか。また、飲み会へは今後も参加しないとやんわりと伝える方法は無いでしょうか?」

それらしい回答が出力されるはずだ。読んでいただいた方の手元でも再現できると思う。

4.

ChatGPTに対して、以下の入力をすると使い物になる。

【以下の内容を、簡潔に整理してください。(マイク入力文字起こしした、漢字かな間違いや重複、欠落、フィラーを含む不明瞭な文章)】

この例題でも、それらしい回答が出力されると思う。

ただし、文章全体が会議体のような文章を多く含むと、おおむね存在しない議題を含んだ議事録が生成される。その方が"打率が高い"からだ。

ただ、まったく使い物にならないものになる可能性が比較的低く、大幅に作業の手間を減らせる。

なぜプログラミング言語の分野で注目されがちなのか

端的に言えば「人間は、誠意や意識判断材料にするので、利用を隠しがち」という点に尽きる。

悩みを聞いてくれた相手AIだと知ると、聞いてもらえていたという感じ方が減る、という研究がある。(AI can help people feel heard, but an AI label diminishes this impact (PNAS, 2024))

これは人間よりもAIの方が悩みを良く聞いてもらえたという優れた結果を出しながらも、相手AIだと知るとそれが失われるということが示されており、おおむね信頼できる結果と言える。

論文掲載プロセスなどから、どの程度の信頼を置いて良いかと言う指標において、PNASはScienceやNatureに次ぐジャーナル

これは、直観的にも理解できるし、そうだろうな、と感じると思う。すると、先ほどのようにお断り文面メールAIやらせる、という事例は、公言するようなことではなくなる。

大っぴらにAIを使っていますと言える事例がプログラミング言語に偏るのも、まあそうだろうな、と思う。

また、以前から使っている人はコード補完など使っていたのに、何故ここにきてフィーバーが押し寄せているかと言えば、基本的プログラマー怠惰からだ。

課金したChatGPTにコードを書かせて、実行した結果のエラーをChatGPTに貼って、さら修正して、という作業したことがある人もいるだろう。

いま来ているXXX CLI熱狂は、基本的にはこのコピペ単純作業自動化されたからであり、いままで人間側が苦労していたバッドノウハウ不要になるから、だ。

まとめに代えて、いまAIを使うべきか?

今まで怠惰に利用していた人が、さら怠惰になるために課金して元が取れると思うなら、課金した方が良い。

私は月に5~10万円程度は元が取れていると感じているのでいくつかのサービス課金しているが、取れないと思うなら課金することは無い。

身銭を切ってでも今の生成AIブームに食らいつくべき、という話も聞くが、個人的には懐疑的だ。もっとより良いものもっと安価に使えるようになると思う。

「こうやって工夫すれば良い結果が」というのは、例えば創造的にゲームを遊びつくす、という意味では良いと思うが、単にその時点のバッドノウハウの塊になると思う。

今の生成AIブームは、返答結果が知的に"見える"ことから生じている誤解であって、正確な知識を教えてくれることも、推論することも、意識を持つこともない。

ただし、途中に引いた論文のように、既に人間よりも優れた結果を出している領域もあり、(カーナビに経路案内をお願いするように)限定されたタスクでは十分に成果が出ている。

そのため、例えばイライラする上司へのメールを書くのに脳のリソースを使いたくないな、と思うのであれば、不満を全て叩きつけるような文面を入力して、適切なビジネスメールに変換してもらえば良い。

炎上しそうなことを、炎上しますか?と聞くのはお勧めしない。現状の生成AI学習は、同意共感協調に重きを置いており、あなたの意に沿う返答が返ってくる可能性が高い。(その方がユーザー満足度が高いから)

大丈夫炎上しませんよという答えが得たいときには入力文にその意図が混入する可能性は高く、その場合は意に沿った返答が得られ、そしてたいてい中身は間違っている。

信頼せよ、しかし確かめよ(Doveryai, no proveryai)と言えるほどの信頼度には、生成AIは未だ到達していない。

信頼するな、必ず確かめよ。すぐに確かめられるものには利用して良い。

蛇足

サービス提供側が出したくない情報を"脱獄"して抜き出そうとする行為は、推奨しない。

自分学習データを集めてやるべきことであって、サービス提供側に法的リスクを負わせて遊ぶのは感心しない。

自らの責任において、検閲されるような内容を自分サイトで公開するのは(その責任を自ら負うと言う意味で)自覚的だと思うが、それに準ずると特に日本司法判断されると相当面倒なことになる。

そういうのはリスク承知で黙ってやるか、やらないか、いずれにせよ公言するようなものでは無い。

  • 身銭を切ってでも今の生成AIブームに食らいつくべき、という話も聞くが、個人的には懐疑的だ。もっとより良いものがもっと安価に使えるようになると思う。 タピオカ屋とかと同じ...

    • 必死こいても先行者特権なんかないよ 誰にでも使いやすくなるよ というスキームに対してお前は転売屋程度の低次元な絡みをしているよ

      • OCR増田がこれ言ってるんだとしたら、 技術屋として体系立ててCS学ぶってことしてこなかった 文系SEなんだろうなと思ってしまう

  • ChatGPTが出始めの頃に「技術的に大したことやってない」って言うAI研究者いたけど ChatGPTのブレイクスルーは忖度チャットを知的に見せるプレゼン力なんやろなあ 必要なのは本当に正し...

    • 世の中の99パーセントの人間は技術的に大したことしてないからね 十分革命的なんだよね

    • それちょっと解釈がズレてんね 当時流行ってたDNNによる時系列予測モデルのバリエーションを使って単語予測する、という学部生が思いつきそうな簡単なタスクやらせただけなのに(技...

      • 大量に学習させるとパフォーマンスとても悪くなるから、そこからさらに学習させた先に高知能aiがあるとは誰も思わないよなぁ…

        • モデルパラメータを増やすと汎化性能が落ちるという、これまでの機械学習の常識が崩れたのはかなりインパクトあったな ただ増田は勘違いしてるかもだけど、データはありったけあっ...

  • 長いのでChatGPTに3行にまとめてもらった 「AIは全然使えない」という感想は正しく、現行の大規模言語モデルは偶然に「知的に見える」文章を生成しているだけで、推論能力や正確な知...

  • AIと聞けば無我夢中で触っていたおじさんがこうやってムキになって反論するくらいには下火になってきてる…ってこと!?

  • LLMを開発してる会社の社内用AIチャットボットって、忖度なしで正しい回答をする方向にチューニングされてたりするのかな。 俺もそっちが使いたいなあ。

  • 続きを書くのか 間を埋めているのか https://www.anthropic.com/news/tracing-thoughts-language-model

  • 今広く使われているAIがこれまでと大きく変わったところはただ一つ。 チャットボットになった。 これだけ。 今までは「検索」→「結果を見る」→「検索」を繰り返していたのが、格段...

  • Appleの論文ってのはこれのことやね https://www.itmedia.co.jp/aiplus/articles/2506/09/news077.html 問題は、ChatGPTをはじめとする現在の生成AIツールが、あたかもそれらを行うことができるように"見せ...

  • 大規模言語モデルは、本質的には「続く文章を確率的に返す(答える)」というものから一歩も外へ出ていない。 いつまで言い続けるんやろうか AI(ニューラルネットワーク)って意図...

    • https://www.itmedia.co.jp/aiplus/articles/2506/09/news077.html  研究の結果、LLM(大規模言語モデル)とLRM(大規模推論モデル)が数学的な問題解決で、真の論理的推論ではなく、訓練データに基づ...

      • AIで全く成果の出してない落ち目な企業Appleが出してその筆頭著者がインターンな論文がなんだって?? “きちんとAIで成果を出している企業” Anthropicから出た反論の論文も記載しろよ ...

        • リンク貼れ

          • https://innovatopia.jp/ai/ai-news/57666/ これか。 特に、ハノイの塔で15ディスクの場合32,000手以上必要となるため、トークン制限により出力が制約されることを指摘した。また、川渡りパズルの...

  • なんでこう微妙に勘違いしてる人から雰囲気それっぽいだけで的外れな評論ばっかり出てくるんだろうな。LLM界隈は。 ちゃんと使って仕事してる人はこんな評論を書く必要も暇もないか...

  • OCRやってた人の割に情緒すぎない? なんか、技術屋っぽさ感じないのはなんで?

  • まだGPT-3の頃の話してる… LLMの表層的なアクションは単語列に続く単語の予測だが、モデルが文全体の意味・語順・文脈などの構造を捉えていることが重要 ブコメでも指摘されてるけどC...

  • https://anond.hatelabo.jp/20250628122821 それは、勝手に人間と同じレベルの挙動を期待してしまうからだ。 分かりやすい例を挙げると、HONDAのアシモ。 人型を取っているため、人間と...

    • いや、勝手な期待じゃなくて、サービス提供側が「検索に使えますよ」「論理的に考えられますよ」ってアピールしてるんじゃん。

      • 使えてるじゃん 今のインターネットがゴミカスなだけ 目検して有用なソースを指定してそれだけ取り込ませればいい

    • 勝手に期待してるって言うけどAI技術アピールしてるIT企業は投資や売り上げを集めるために誤解させようとしてますよね?(ひかえめに言っても誤解を放置してる)

  • 課金したChatGPTにコードを書かせて、実行した結果のエラーをChatGPTに貼って、さらに修正して、という作業をしたことがある人もいるだろう。いま来ているXXX CLIの熱狂は、基本的にはこ...

  • 単純作業以外で「使い物になっている(ように感じている)」人って、本人や周りのレベルが低い人だよね そういう人たちを底上げするのにはいいかもしれないけど、デマで信じ込んじ...

  • 納得感のある説明だ。おれはAIは「知ったかぶりの物知り」ととらえてる。 ある部分では正確で、ある部分では知ったかぶりだから。でも数か月単位で「前にできなかったこれが、出来...

  • 思えば遠くまでニューラルネットは来たもんだ、しみじみ

  • それっぽい事言ってるけど、この人まったくLLMを理解してないね。 すくなくとも、分散表現、トランスフォーマ(Decoder-onlyモデル)、topK、 topP 、あたりを理解せずに 知ったかぶりでそ...

  • https://anond.hatelabo.jp/20250630114221 https://anond.hatelabo.jp/20250626125317 https://anond.hatelabo.jp/20250627100609 https://anond.hatelabo.jp/20250628122821 AI技術を批判する記事がバズりまくってるが、それに対して...

    • claude code知らなさそう

      • あれも全然問題解決できてないけどね

        • あえてai(というか、llm)だけしか見ないことで間違ったことを言わずに印象を操作する増田

      • それも過去の膨大なソースコード読み込んで、似た結果を吐き出してるだけやん まあコードは正か非かしかないから、思想や感情吐き出すAIよりは使い方ありそうだけどな

        • 似た結果というか、next tokenをcontext windowから予測しているという仕組みから言えば、過去にないcontextが入力されれば新しい予測がされる 膨大なパターン構築器みたいなもんだからな だ...

    • モデルも組んでるガチ勢だが 言ってることは不正確とはいえ正確に書くのは無理だし大体そうだなとは思うんだけど 実際のITの現場ではかなり使えてる 例えばさっきキーがないカラム2...

    • すごい早口で言ってそう

    • 君の言う内容に、俺も概ね同意するものの、 君の批判は「AIを万能かのように喧伝するやつ」にのみ有効であり AIの有用性の実際の評価については、それほど有用ではないだろう。   そ...

    • 要約したぞ   ① LLMは意味を理解していない • LLM(大規模言語モデル)は「次にくる単語」を予測しているだけで、意味を理解していない。 • プログラミング支援も表面的な模倣...

    • 自作自演? 元増田のおっさんについては、キモオタ然とした独特の文体で悪態ついて各位から突っ込みの集中砲火を浴びつつも、ちょっとずつAIの使い方についてお勉強が進んでいるよ...

    • 本質的な観点は合ってんだけど、元増はaiの使い方が下手というか、懐疑的ゆえあえてaiのミスを誘導する使い方をしてるんじゃねえかな。 俺も懐疑派ではあるんだけど最新のaiだともっ...

    • 機械学習のこと何一つ理解できてなさそう

      • なんで機械学習というワードが出てくるんだ。

        • ん?そういうこと書いてくる時点で理解できてねえんだよ DNNの基本である特徴抽出能力を理解してないじゃん 教師あり学習と教師なし学習を同時にやってのけるのがDNNの最大の強み...

    • サンキューChatGPT

    • anond:20250702084303 これとかまさにそれで 「LLMは確率的に次に来る文字列を予測してるだけ!」 とか分かったフリして叫んでる そんなのChatGPTが出てくる前のGPTの頃からみんな言ってたわけ...

    • 「飲みます」→90%の確率 「買いました」→7% 「投げました」→0.5% というような統計的予測をして、「飲みます」を選ぶ はい嘘。低確率のもランダムで採用するから!もっと熱...

    • AIにコードを書かせるみたいなことをしているけれど、 めちゃくちゃやる気がある、いろんなことをそれなりに聞きかじって知っている新人さんにコードを書いてもらうような感じだと...

    • と言いつつこの文章もAIに書かせてるじゃん もし、書かせてないなら単にAI使いこなせてない無能

    • ただ単に機械的に処理してるだけだからなAIって CPUや処理性能上がってそれっぽく動いてるだけで 一回80年台から2000年にかけてAIブームあったのと同じ ただ、今は当時と違ってIT化が進...

      • それはそう ChatGPTやGrokやGEMINIの挙動確認すると当時おれが作ってたやつのそっくりだもんなあ… AIというより人工無能だよねこいつら

      • おっとLispさんの悪口はそこまでだ

    • 「あくまでアシスタントやぞ!」という意図を込めたcopilotというネーミングは、Microsoftにしては気が利いてるなあと思っている。

      • IT巨大企業が猫も杓子も「根本的に使えない技術」の開発に躍起になってるのはなんででしょうね…

    • なんだこのクソデカ釣り針は というか「AI信者ガー」とか言ってるくせに文章にChatGPT使ってる時点でダブスタというか釣り目的だろこんなん…

    •  解説ありがとう。  あくまで言葉を模倣しているだけで実際に推論しているわけではないのね。そしてそこまで発展させるのはかなり難しいという…。 だからOpenAIもジブリ風画像で...

記事への反応(ブックマークコメント)

ログイン ユーザー登録
ようこそ ゲスト さん