異文化

shi3z

2025年5月3日 10:07

いろいろあって今、アジア某国にいる。
肩書きには「世界を放浪の末」なんて前口上がついてはいるが、実はアジアはほとんど知らない。

コンピュータ革命の中心は欧米で、僕が若い頃は特にアメリカ西海岸だった。

MicrosoftやAmazonのシアトル、AppleやIntel、AMD、Adobeのシリコンバレー。

ここが中心だから、ここに行く機会が多かったし、関連する学会も北米で開催されることが多かった。

たまにヨーロッパでも学会があったりして、そういう時にはよくでかけていった。

ディープラーニングが台頭してきてから、その中心は広がった。研究の爆心地はカナダであり、さらにアメリカ東海岸、そして中国に広がる。

今や中国はAIの最先端国家であり、アメリカのビッグテックは常に背中に迫る中国のオープンウェイトモデルの影を感じながら、追い立てられるように走り続けるしかなくなっている。

ほんの一年前まで「これで人類と変わらない思考力になった」と言われたレベルのモデルとほぼ同じ性能の中国製オープンモデルが、膝の上で動くラップトップで動作する。そんな未来を誰が想像しただろうか。

論理的な演繹という意味で、「想像」はできていた。
だから、それが実際に膝の上で動いた時に、自分がどんな気持ちになるかは今その瞬間を迎えるまでは想像も付かなかった。

誤解を恐れずに今の感情を語るとすれば、「もっと」だ。

確かにGPT-4並、少なくともGPT-3.5よりは遥かに賢いモデルが膝の上の小さなノートパソコンで動くのは驚異的だ。去年の今頃、同じことができていたら、むしろ「ChatGPTなどいらん」と言っていただろう。

しかし、人間の欲は計り知れない。
我々はすでに「もっといいLLM」の存在を知ってしまっている。それはo3とかo4-miniとかClaude3.7とかだが、そのレベルのLLMがいつかノートパソコンで動くんじゃないかという期待を捨てられない。

AIの性能が上がれば上がるほど、実は窮地に追い込まれているという別の現実がある。

ChatGPTのGPT-4.5がなぜべらぼうな価格設定だったのか。
実際問題、本当にそれだけの推論コストがかかるからだろう。

ChatGPTの構成は非公開なので、同等の性能を持つDeepSeek-V3とかR1とかで考えると、これを動かすには、H100x8を搭載したマシンが2台必要になる。ざっくりこれを一式1億円のシステムだと考えることにしよう。

「一式一億円のシステムで、何人のユーザーを捌けるか?」が第一の関門だ。

たとえばチャット方式のWebサービスを提供するとして、ユーザーが質問文の入力に平均5分かかるとすると、一時間に12回の推論を提供しなくてはならない。H100x8マシンの推論スループットが仮に1000トークン/sだとすると、4000トークン出力するのに4秒だ。僕なら、ユーザーが過度に入力するのを防ぐために、わざと間にプロキシーサーバーをかまして、4秒で得た推論結果を表示するのに、40秒くらいはかけたい。

ChatGPTやDeepSeek-V3の推論結果が出てくるのを目で追えるスピードというのはせいぜい5トークン/秒くらいなので、これでユーザー一人当たりに提供する「推論時間」を引き延ばせることになる。

APIだとそういう誤魔化しがしにくいし、出力されたトークンを目で追うなどの心理学的な効果が使えないので、APIを固定額で提供している会社はないのだろう。

電気代を別として、1億円のシステムをリクエストあたり4秒ずつ使うとしたら、一時間あたり処理できるリクエストは900件になる。一日あたり21600件。30日で64万8000件だ。

ユーザーが平均一日述べ2時間使うとして、一日あたりのリクエストは24件。30日で720件。それをサーバー一式で捌くと、一式あたり900人を捌くことができる。

この900人が一年間サブスクするとして、　述べ10800人。一億を10800で割ると、9,259円となる。つまり、全員から月額1000円くらいとれれば、システムのもとがとれる。

そう考えると今のChatGPTやClaudeの利用料金は妥当という気がする。

しかし最近増えている月額3万円(200米ドル)のサブスクはどういう根拠か。
簡単に言えば、潜在的には一人当たりに消費するリクエスト数が30倍になるということになる。

「そんなに質問できないだろう」と思うかもしれないが、いわゆるDeep Researchと呼ばれる機能は、検索して得られたページのデータを読んでまとめてといった処理を繰り返す。人間が一回質問したら、その裏側では30回くらいはクエリーが処理されていても不思議はない。

また、最近の上位モデルは「30万トークン」とか「100万トークン」とかに対応していて、一人当たりの平均レスポンス時間も伸びる傾向にある。

Deep Researchが地味に良いトリックなのは、検索したり読み取ったりしている間は高価なGPUシステムは遊んでいられることだ。

ユーザーは「思考過程」の画面を見て「お、動いてるな」と安心する。これも巧妙な心理トリックで、本当にフルパワーで動いていたら文字通り目にも止まらない速さで動くのだが、実際には検索結果が返ってくるまでの数ミリ秒の間はGPUサーバーは他の仕事ができる。

このあたりが実にあやふやに感じるのは、ChatGPT Proには、なぜかSoraの利用権も含まれるからだ。

SoraとChatGPTを同時に使うこともできるのに、「とりあえず金あるやつは払うだろう」という雑な思想のもとで価格設定されているような気がする。

仮に今後投入が予定されていると言われている「月額30万円のAIエージェンティックサービス」が入ったとしても、その価格の妥当性は若干疑わしい。

たとえばシステムを1億ではなくて10億規模のものにすることはできる。
それなら価格が10倍になるのも理解できる。たぶんGPT-4.5はそういうことだろう。

GoogleのGeminiの強みは、実はGPUを使ってないところにあるのだと思う。
GPUは他社のものだが、Googleには独自に設計したTPUがある。TPUのIPは自社IPなので無料だ。これはシステムに必要なTPUが増えれば増えるほど有利になる。

たとえば、最近ようやく30万トークンくらいの長めのコンテキストに対応してきたChatGPTに長文を書かせようとするとやっぱりズルをする。「5万字で書け」と言っても書いてくれない。

しかし、Gemini2.5に「5万字で書け」と行ったらキッチリ5万字書いてくれる。これはシステムにかけるコストが段違いに安いからできるのだ。

もしもクラウド上のサービスだけでLLMを完結しようとしたら、結末は必ず自社IPの推論チップを持っている会社の勝ちになる。コストの問題だ。

しかし、同時に不安の種もある。果たして本当にそんなに大規模なモデルは必要なのだろうか。

規模の大きさをいたずらに追えばいいというものではないという結論を、GPT-4.5は示した。

我々は「賢さ」に対する認識を再度改めなければならなくなった。

コンピュータ以前の世界では「賢さ」とは「知識を持つ人」のことだった。

「あの人はなんでも知っている」が、賢さのひとつの基準だった。
たとえば計算法なんかも知識であり、知識を持っていることはそれを運用できることをも意味した。

コンピュータが発明されると、「正確に計算できること」に意味はなくなった。コンピュータの方が基本的には正確だからだ。

インターネット以後の世界では、「知識を持つ人」は、Wikipediaに負けるようになった。

「知識を持つ人」と「知識を持つふりをする人」がいた世界が消滅し、「知識を持たない人」だらけになった。

こうなると、まだ残る人間にしかない「賢さ」とはなんだろうか。残ったものは、「知識を運用する人」になった。つまり、プログラマーだ。

AI、特に深層学習が発明されて以来、古くからのプログラマーの大半はこれを毛嫌いした。

ほんの10年前まで、深層学習はまともな技術とみなされていなかった。
しかし、抗えないほどの魅力を持つ深層学習は、それまで「賢さ」とは明示的に認識されていなかった機能、すなわち「直感」の機械化に成功した。

囲碁で人間に勝つということは、直感で人間に勝つ、ということである。

プロの棋士でさえ自分の打ち手のすべてを論理的に説明できる人はいない。仮にいたとしても、AIに勝てない。そしてAIは、自分の打ち手を論理的に考えたりは原理的にしてない。つまり、これは直感の機械化なのである。

残る「賢さ」はなんだろう。
たとえば、「知識」と「直感」があったとしても、それを組みあせて運用することはできない。「直感によって知識を運用する」ことができなければ、賢いとは呼べない。

大規模言語モデルが登場したことで、「直感によって知識を運用する」ことの可能性が示された。

たとえば「翻訳」という仕事があるが、これは単なるルーティンワークではなく、かなりクリエイティブな仕事だ。

言語の背景にある文化を汲み取り、ある文化で「こう」と呼ばれているものを別の文化では「これ」に相当するか、まさに直感的なセンスが求められる。

直感力と組み合わさる以前の機械翻訳は、文字通り機械的なものだった。
大学生の頃の僕は、機械翻訳された大量の技術原稿(DirectXのマニュアル)を一言一句、「正しい日本語」に修正するアルバイトをしていた。

たとえば、大統領のスピーチ原稿など、リズムと韻に意味があるような文章の翻訳は、非常に難しい。機械的に行おうとすると、日本語として全く読めない文章になってしまう。

そこには意訳だったり、「言い回しは違うけど同じ意味」の言葉を探したりといった、直感的な操作が必要になる。

これを自動化できる日は果たしてくるのか。

そう思っていたら、Google翻訳がニューラル翻訳にバージョンアップした。
かなりの部分で、自然な翻訳、直感的に正しい訳が出せるようになった。

その後、大規模言語モデルがうまれ、自然言語同士の翻訳はもちろん、自然言語と人工言語の翻訳までできるようになった。

つまり、「プログラミングできるAI」の登場である。

プログラミングは、まさしく知識を直感的に連関させて望む結果を得る行為である。

最初期の頃はプログラムの断片を出力する程度だったが、その程度でもプログラマーは喜び、どんどん自分のコードにAIの提案を取り入れていった。

昨年末から現在にかけて起きている「バイブコーディング」の流れは、それを飛び越え、プログラムの内容を全く意識せずに、結果としてのプログラムだけを受け取るというものに変化した。

残る「賢さ」とはなんだろうか。
今の所、僕が思うのは、「自分の望みを言語化する能力」である。

しかしこれは、誰にとっても難題だということはすぐにわかるだろう。

「自分の望みを言語化しろ」というのは、ある一定の年齢に達したら、人間なら誰でも求められることだからだ。そしてそれが人間にとって一番難しいことでもある。

それよりも少し簡単なのは、「他者の望みを言語化しろ」というもので、これはコンサルタントや占い師やカウンセラーなどがやっていることだから、今のLLMの延長線上にある。

けど、「他者の望みを言語化しろ」というタスクは、ただそれをすればいいというものではない。

本当は、「他者の望みを言語化しつつ、本人が思いもよらないような解決策を示せ」が正しい。

バイブコーディングで人間に求められるのは自らの言語化能力だが、その先のLLMの展開は、「カウンセリング能力」になるだろう。

これも一年待たずともそういう時代がくる可能性は高い。しかもLLMの進歩によってではなく、プロンプトエンジニアリングや別のベンチマークの出現によって。たとえば、「ある属性を持つ人物と会話して、短時間にその人物の持つ背景情報を引き出せ」というようなベンチマークテストがあれば、それを解けるLLMはファインチューニングなどですぐに作れる。

このデータセット自体もLLM同士がロールプレイすることで作ることができるだろう。

人間は知らない人と話す時、面接で相手のことを引き出そうとする時、頭の中で小さなアキネーターのものが動き始めていて、「この人はこのタイプかな」と予想しながら質問を繰り出していく。同じことをLLMが訓練すれば人間と同等以上にカウンセラーをできるようになるだろう。

これは、個人的な問題だけでなく、「本当に作りたいものはInstagramクローンだが、本人は"画像メインのTwitter"だと思っている人との会話」みたいなものにもいくらでも応用できる。ミルクボーイの漫才みたいな。

あ、また停電だ。
・・・と思ったら復帰した。

バッテリー内臓のノートパソコンじゃないとなかなか厳しいものがあるね。アジアは。