注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
LLM の注意機構には色んな機能があることが分かっています。注意機構を分析することで、なぜ LLM は文脈... LLM の注意機構には色んな機能があることが分かっています。注意機構を分析することで、なぜ LLM は文脈内学習や思考の連鎖に成功し、ひいてはなぜ LLM が外挿に成功することがあるのかについての理解が得られます。本稿ではさまざまな種類の注意機構を観察することでこの問題をひも解きたいと思います。 目次 目次 基本的な考え方 文法ヘッド 注意の受け皿とレジスタトークン 逐次ヘッドと検索ヘッド 帰納ヘッド 関数ベクトル 反復ヘッド まとめ 基本的な考え方 LLM の多くは注意機構と多層パーセプトロン (MLP) を交互に積み上げたアーキテクチャを持ちます。各層は複数の注意機構をもち、それぞれの機構を注意ヘッドと呼びます。 注意機構の役割は 文脈内の検索 ルール・アルゴリズムの実現 です。文脈とはプロンプトと今までの出力のことで、これを踏まえて次トークン予測を行います。注意機構は文脈から次トーク
2025/09/29 リンク