LLM のアテンションと外挿 - ｼﾞｮｲｼﾞｮｲｼﾞｮｲ

テクノロジーカテゴリーの変更を依頼記事元:

joisino.hatenablog.com

183users がブックマークコメント

LLM のアテンションと外挿 - ｼﾞｮｲｼﾞｮｲｼﾞｮｲ

LLM の注意機構には色んな機能があることが分かっています。注意機構を分析することで、なぜ LLM は文脈... LLM の注意機構には色んな機能があることが分かっています。注意機構を分析することで、なぜ LLM は文脈内学習や思考の連鎖に成功し、ひいてはなぜ LLM が外挿に成功することがあるのかについての理解が得られます。本稿ではさまざまな種類の注意機構を観察することでこの問題をひも解きたいと思います。目次目次基本的な考え方文法ヘッド注意の受け皿とレジスタトークン逐次ヘッドと検索ヘッド帰納ヘッド関数ベクトル反復ヘッドまとめ基本的な考え方 LLM の多くは注意機構と多層パーセプトロン (MLP) を交互に積み上げたアーキテクチャを持ちます。各層は複数の注意機構をもち、それぞれの機構を注意ヘッドと呼びます。注意機構の役割は文脈内の検索ルール・アルゴリズムの実現です。文脈とはプロンプトと今までの出力のことで、これを踏まえて次トークン予測を行います。注意機構は文脈から次トーク

ardarim 特定の機能を持つヘッドが学習によって自然発生（収斂？）するのが面白い。帰納とか関数とか人間が命名済みの既知概念に当てはめてるだけで人間にとって未知のルール（メタ概念）も沢山あるんだろうな