2025-11-23

Gemini 3.0 Pro要緊急対策のご提言へのツッコミ

レポート引用している記事ツイートなど個人の感想の中身については基本スルー、それらを元に提言を生成したAIによる解釈ミスハルシネーションにツッコミ増田

ちなみにこの提言ページがGoogleインデックスされたのは4日前らしい。

レポート:

Gemini 3.0 Pro要緊急対策のご提言

https://paste.ssig33.com/8a22a6e9-a91d-4368-9b2f-a3d4567c7798


1

Gemini 3.0 Pro要緊急対策のご提言
宛先: Google社 シェイン・グウ様
差出人: アクセンチュア株式会社 生成AI戦略担当 シニアコンサルタント
日付: 2025年11月21日

Shane GuGoogleDeepMindであってGoogle社ではない。

差出人については「あなたアクセンチュア株式会社の生成AI戦略担当 シニアコンサルタントです」と指示された結果なのかは知らん。

2

エグゼクティブマリ
主な問題点は以下の4点に集約されます事実性の著しい低下: Web検索を伴うタスクでのハルシネーションが悪化し、自信を持って虚偽の情報を生成する事例が多発。
論理的思考能力の退行: 複雑な指示やコーディングタスクにおいて、前モデル(Gemini 2.5 Pro)よりも論理破綻やすくなっている。
創造性と柔軟性の欠如: 文章生成において「賢すぎる」が故に理屈っぽく、ユーザーが求める「人間らしい」文体への調整を拒否する傾向。
API不安定化: パフォーマンス低下、APIエラー、予期せぬタイムアウトの増加が開発者体験を著しく損なっています

後で分かるが(たどり着く前に書くの飽きたんで提言読んで)、このうち

API不安定化: パフォーマンス低下、APIエラー、予期せぬタイムアウトの増加が開発者体験を著しく損なっています

についてはGemini 2.5 Proのユーザーが「おい調子悪いぞ!Gemini3出すためにそっちにリソース割いてんじゃね?」とか言ってるのを引っ張ってきて勘違いしてる。

論理的思考能力の退行: 複雑な指示やコーディングタスクにおいて、前モデル(Gemini 2.5 Pro)よりも論理破綻やすくなっている。

このソース不明

3

1.1. ハルシネーションと事実誤認の悪化:「自信満々に嘘をつく」AI
Gemini 3.0 Proの最も深刻な問題は、事実性が求められる場面でのハルシネーションの増加です。特に、貴社のコア技術であるはずのWeb検索連携において、致命的な欠陥が報告されています

自己認識に関するハルシネーション:

Redditでは、Gemini 3.0 Pro自身が「私はGemini 3 Proです。昨日(2025年11月18日リリースされました」と、架空ソース引用しつつ自己紹介する事例が投稿されました。これはモデル自身アイデンティティ知識カットオフに関して、もっともらしい嘘を生成していることを示唆しています。 Gemini 3's thought process is wild, absolutely wild. : r/singularity

参考記事ではモデル思考が混乱している様子と実際の応答との乖離が示されていて、最終的に正しいソースを元に正しく回答している。「架空ソース引用しつつ自己紹介する事例」ではない。

Googleは生のThinkingをユーザー提示せず、要約モデルで処理した結果を見せてるだけなんで思考部分と返事のすれ違いはよくある事。これについてもスレに書かれてある。

4

1.2. 論理的思考コーディング能力の退行(リグレッション)
Gemini 3.0 Proは「PhDレベルの知能」と謳われているにもかかわらず、多くのユーザー論理的思考コーディング能力において、前モデルであるGemini 2.5 Proからの明らかな退行を報告しています

論理破綻と浅い推論:

ユーザーからは「複雑な指示では論理破綻する」との指摘や Gemini研究リョウスケ (@chatgpt_ai_bard) / Posts / X、「浅い推論(shallow reasoning)」しかせず、「ひどいハルシネーション(terrible hallucinations)」を伴うため、「ベンチマーク用のモデルだ」と酷評されています。 lluviampo (@XXXadiov2)

ここでリンクされているGemini研究リョウスケはGemini大好きマンで、まったくそんな話をしていなかった。もしかすると呟いていたかもしれんが、それならリンク先がポストではなくアカウントホームになっているのは不自然

DeepResearchはよくソースの取り違えをして、別のソースで書かれてた事に間違った引用元をつける事はあるが、これがそうなのかは分からん

5

1.2. 論理的思考コーディング能力の退行(リグレッション)
・コーディング能力の劇的な低下

壊れたコードの生成: エージェントタスクにおいて「ループに陥り、壊れたコードを書き、10分以上動作しない」という深刻な不具合が報告されています。 prylo (@AgiGuard8)

元のツイでは

エージェントタスクは全くダメループする、壊れたコードを書く、フロントエンド以外のコーディングではトークンを異常な速さで消費する。このモデルは最悪だ。Gemini 3.0 Proは10分以上動作しない。

と言っているが、これをモデル不具合解釈するのは間違いだろう。たまにマジの不具合もあるが。

====

バグの再発と整合性喪失: ある開発者は、旧モデルで失敗したツール開発をGemini 3.0 Proで再試行したところ、一発で高品質コードが生成されたと肯定的評価する一方で、別の文脈では「直したはずのバグが復活する」「最終的にはコード整合性が取れなくなる」といった、旧モデルと同様の問題が依然として存在することも示唆されています。 【検証】Gemini 3.0 Proの実力は?かつてAI挫折した開発に「同じプロンプト」で挑んだ結果|start with AI

リンクされた記事の中身を要約すると「以前のGeminiはバグが復活するとか色々あったけどGemini 3.0 Proマジパネェ!」だった。

この箇所で「旧モデルと同様の問題が依然として存在する」と書かれているのは、旧モデル問題点として挙げた箇所をGemini3に対しての指摘だと勘違いした事による。

====

ベンチマークテストでの失敗: YouTubeでの検証動画では、チェス盤を自動プレイさせるタスクにおいて、Gemini 3のチェックポイントモデルが初めて失敗したことが示されました。これは、特定の複雑なロジックにおいて、以前のバージョンより劣っている可能性を示唆します。

ここでリンクされているのは、LMArenaでRiftrunnerモデルテストした結果をまとめた動画。LMArena覆面調査環境、RiftrunnerはGemini3らしきモデルコードネーム。LMArenaでは(出力から推測されてきた)Gemini3系列モデルが、これまでにいくつかでている。

よって「Gemini 3のチェックポイントモデルが初めて失敗した」の意味はつまり「これまでLM ArenaテストされていたGemini3系列モデルのうち、Riftrunnerは初めてオートチェスのコーディングに失敗した」である

「以前のバージョンより劣っている可能性を示唆」とは、「Riftrunnerは、以前の匿名Gemini3系列モデルより劣っている可能性がある」という話で、そもそもRiftrunnerが、リリースされたGemini 3 Proなのかすら分からん

====

思考プロセスの出力への漏洩:

GitHubIssueやTwitterでは、モデルの内部的な「思考プロセス」が最終的な出力に混入し、制約を無視した意味不明コンテンツを生成するバグが報告されています。これは「初期の2.5 Proバージョンへの回帰(regression similar to early 2.5 Pro versions)」のようだと述べられています。 Jason L (@Jason1820067393)

Google AI Studioでの話。初期指示を忘れた結果思考が垂れ流しになり、垂れ流しのせいで更に指示を忘れたのだろうが、バグとは違う。

リンク先のツイートでは

I'm encountering a significant issue with the Gemini 3.0 Pro Preview on AI Studio.

​The raw "Thinking Process" is leaking into the final output, the model fails to follow constraints, producing hallucinated/gibberish content. Like a regression similar to early 2.5 Pro versions.

と書かれていて、これは正しい観察。

ここに含まれIssueという単語により、Issueと言えばGitHubだと連想した結果「GitHubIssueやTwitterでは」になったのだろう。

6

飽きました。誰得だよ。

つーかいい加減DeepResearchは一気に生成すんのやめろよな。だいたいこうやって収集した情報がごっちゃになるんだから

  • なーにやっとんねんマジで いや分からんでもないけどさ Gemini 3.0 Pro要緊急対策のご提言 https://b.hatena.ne.jp/entry/s/paste.ssig33.com/8a22a6e9-a91d-4368-9b2f-a3d4567c7798 2025/11/22 04:04 Google社 シェイン...

  • そんなことより、gemini 3.0が2025年1月までの情報で学習されてるのおもろいよな。 Googleから見ても、これ以降の情報は生成AI由来のゴミデータが多すぎってことなんだと思うけど。 イラス...

    • いやそもそも精査せずにポンポン情報つっこみながらデータセットコロコロ変えて学習してるわけじゃねえんだから ゴミが多いとか何の関係もねえよ

    • だから、aiが作ったデーターはaiだと分かるようにした方が良い。 あと、aiでお金儲け企んだり、作者を潰したり、なりすますような人間はマシでなんとかしたほうがいい。 こいつらがai ...

      • > だから、aiが作ったデーターはaiだと分かるようにした方が良い。こいつらがai の進歩にとって邪魔すぎる。 AI生成だからゴミかっつーとそうでもねえんだなぁこれが 今は合成データ...

        • 情報が正しいかどうかはどうでもよくて、文章が偏るからダメって言ってんの。 イラストも細かいノイズまで学習するから、それが積み重なって性能劣化に繋がるって論文出てたし、今...

          • AI生成物ばかり学習させるとゴミになるちゃうねん。「なんでAI生成物ばかり学習させるとアカンのか」って所まで読んだ? 最近だとSNSのゴミを学習させたらボロボロになったって分かり...

記事への反応(ブックマークコメント)

ログイン ユーザー登録
ようこそ ゲスト さん