Self-Forcingが強力すぎる 動画のリアルタイム生成だけでなく言語モデルや音声、強化学習が劇的に高性能化する可能性
昨日見つけた「Self-Forcing」という手法が強力すぎて体の震えが止まらない。軽く鬱になりそうだ。
https://arxiv.org/html/2506.08009v1
Adobeとテキサス大学オースチン校の共同研究によって導かれたこの手法を使うと、動画をリアルタイムで生成することができる。リアルタイムだ。
これまでは、5秒の動画生成に数分かかっていたが、5秒の動画を5秒で作れると言うことである。というか、見ている動画をリアルタイムに変化させることができる。本質的な意味でインタラクティブな映画を作ることができると言うことだ。これまでの「リアルな3DCG」とは次元の違う、まさにAIによるゲームレンダリングの革命が起きている。
今、すでに音楽生成分野では、30秒で8分の楽曲が生成できるようになり、消費する速度を生成する速度が追い抜いている。動画においてもこれが起きると言うことはどう言うことになるのだろうか。
また、現状は6FPSくらいだが、これもいずれ改善されるはずだ。
また、このアイデアはシンプルであるがゆえに恐ろしく強力でもある。
複数のAIの助けを借りてこの論文を咀嚼しようとしているところなので、間違っているかもしれないが、僕の理解ではこの手法の要点はこうだ。


推論結果と正解を比較し学習することで誤差をなくし計算を高速化する
・従来の動画生成では学習時と推論時で異なるデータを与えられるため、生成が長引くとエラーが蓄積してしまう(顔が変わったり、整合性が取れなくなる)
・そこで、学習段階において、推論も同時に行い、推論結果と本来の結果の差分を取り、その差分すらも学習する(確かに人間ならそのように学習するはずである)
・学習時に推論を行い、修正しながら学習するため、推論時に乱れない。
・従来の動画生成で使われる拡散モデルでは、各フレームごとに数十から数百ステップの計算が必要だった(完全なノイズから復元するように生成するため)が、この手法では最初のフレームだけはある程度のステップ数をかけて生成するが、その後に続くフレームでは、直前のフレームをヒントとしてわずか1-4ステップのデノイジングをかけることで次のフレームを生成する(確かに、人間のアニメーターでもこうするだろう)。
この部分についてのGeminiの見解を以下に示す。
従来の遅いモデル(例:多くの高品質ビデオモデル):「一枚一枚、時間をかけて描く」
多くのビデオ拡散モデルは、ビデオの各フレームを高画質にするために、ノイズだらけの状態から数十〜数百ステップの「デノイジング(ノイズ除去)」処理を繰り返します。
プロセス:
ノイズ画像の用意
モデルが少しノイズを除去する
(2を50回、100回と繰り返す)
綺麗な1フレームが完成
次のフレームも、またゼロから1〜4を繰り返す
これは、画家が1枚の絵を時間をかけて丁寧に仕上げるようなものです。ビデオは絵の連続なので、その高コストな作業をフレーム数分だけ繰り返す必要があり、膨大な時間がかかります。
この論文の高速なモデル:「前の絵をなぞって、少しだけ変える」
この論文のモデルは、自己回帰型(Autoregressive) という構造を採用しています。これは、直前のフレームを強力なヒントとして、次のフレームを生成する方法です。
プロセス:
最初のフレームだけは、ある程度のステップ数をかけて生成する。(最初の1枚だけは丁寧に描く)
次のフレームは、完成した直前のフレームをほぼそのまま入力として受け取る。
その「ほぼ完成形」の状態から、わずか1〜4ステップのデノイジング処理を加えるだけで、次の滑らかに動くフレームが完成する。(前の絵を薄紙でなぞって、動きの部分だけをサッと描き加えるイメージ)
(3を繰り返していく)
高速化の核心
1フレームあたりの計算量が激減: 従来のモデルが1フレームに50〜100ステップを要していたのに対し、このモデルは1〜4ステップで済みます。これが速度の最も決定的な要因です。前のフレームという完璧に近い「答え」があるので、ゼロから考える必要がないのです。
自己回帰構造: フレームを1つずつ順番に生成していくシンプルな構造のため、モデルへの入力が単純化され、計算が効率的になります。
Self-Forcingの役割: この高速化には「Self-Forcing」が不可欠です。なぜなら、この「前の絵を修正する」方法では、一度ついた僅かなズレやエラーが次のフレーム、そのまた次のフレームへとどんどん蓄積してしまう危険があるからです。Self-Forcingによって、モデルは**「自身の生成した少し不完全な過去フレーム」からでも正しく次のフレームを生成する能力**を学習時に獲得しています。これにより、高速な推論でも破綻することなく、安定した高品質ビデオを生成できるのです。
まとめると、「自己回帰アーキテクチャ」が計算量を劇的に減らし、「Self-Forcing」という学習法がその高速な生成プロセスを安定させている。この2つの組み合わせが、リアルタイムでの推論を可能にしています。
この方法をもっとシンプルにすると、あらゆる生成タスクに応用できることになる。というか、優れたアイデアは常にそうだが「なぜ最初からそうしなかったのか」と疑問が湧くほどだ。
これは、言語モデルにも音声合成モデルにも応用ができるだけでなく強化学習にも応用できそうだ。
応用に関するGeminiの見解
この「Self-Forcing」技術の核心は、自己回帰モデル(過去の自身の出力を使って次の出力を生成するモデル)が学習時と推論時で生じるズレ(露出バイアス)を、学習段階で自身の生成物を使うことで克服する点にあります。
言語モデル: 文章生成は、単語や文を順番に生成していく自己回帰的なプロセスです。長い文章を生成する際に、文脈がずれたり、内容が破綻したりすることがありますが、Self-Forcingのようなアプローチを導入することで、より一貫性のある長文を生成できる可能性があります。
音声合成: 音声波形の生成も、過去の波形データに基づいて次の波形を生成する自己回帰的なプロセスです。特に、リアルタイムの音声変換や長時間の音声合成において、音質やスタイルの崩れを防ぎ、より安定した生成が可能になると考えられます。
このように、ビデオ(フレームの連続)、言語(単語の連続)、音声(音の連続)は、すべてが「系列データを逐次的に生成する」という共通の性質を持っているため、この技術の基本原理は他のモーダルにも広く応用できる可能性を秘めています。
Thoughts(experimental)
強化学習(RL)への応用は非常に有望であり、核心的な課題のいくつかに直接的に対処できる可能性を秘めています。
強化学習とSelf-Forcingの考え方は、**「自身の過去の決定(または生成物)から生じるズレやエラーに対処しながら、将来の最適な行動を学習する」**という点で深く関連しています。
応用が考えられる具体的な分野は以下の通りです。
1. モデルベース強化学習 (Model-Based RL)
これが最も直接的で強力な応用先です。
現状の課題: モデルベースRLでは、エージェントは環境の「世界モデル」(World Model)を学習します。このモデルは、現在の状態と行動から次の状態を予測するために使われます。エージェントはこの内部モデルを使って将来をシミュレーション("想像")し、最適な行動計画を立てます。しかし、この予測モデルが不正確だと、シミュレーションが長くなるにつれて誤差が雪だるま式に蓄積し、非現実的な未来を予測してしまい、計画が破綻します。
Self-Forcingの応用: 世界モデルの学習時に、常に現実の環境からの正しい状態(Ground Truth)を入力として使うのではなく、モデル自身が1ステップ前に予測した(潜在的に不正確な)状態を入力として、次の状態を予測する訓練を行います。
効果: これにより、世界モデルは自身の予測誤差から回復する能力を学習します。少しズレた状態に陥っても、そこから妥当な未来を予測し続けることができるようになり、より頑健で長期的に安定したシミュレーション(計画)が可能になります。これは、DreamerやWorld Modelsといった最先端の研究で既に取り組まれている課題と直接的に一致します。
2. 模倣学習 (Imitation Learning)
現状の課題: 専門家の行動データ(お手本)を模倣してエージェントを学習させる手法です。しかし、ここでも「露出バイアス」が大きな問題となります。エージェントは専門家が訪れる「完璧な状態」しか学習していないため、実行時に少しでもミスをしてお手本にない状態に陥ると、どう振る舞ってよいかわからなくなり、致命的な失敗につながります。
Self-Forcingの応用: 学習中に、エージェントが生成した(お手本から少しズレた)状態や行動の履歴を意図的に入力し、そこからでも専門家のようにタスクを継続・修正するよう学習させます。
効果: 自身の小さな失敗から復帰する能力を身につけ、より実践的で頑健なエージェントになります。これは、強化学習における有名なDAgger (Dataset Aggregation) というアルゴリズムと考え方が非常に似ています。
3. 長期的な行動系列の生成
現状の課題: ロボット制御などで、一連の長い行動系列(例:「カップを掴み、テーブルまで運び、置く」)を一度に計画・生成する必要があるタスクがあります。これも一種の自己回帰的な生成プロセスです。
Self-Forcingの応用: 行動系列を生成する方策(ポリシー)の学習において、過去に自身が生成した行動を入力として次の行動を決定する訓練を組み込みます。
効果: これにより、途中の行動が少し不正確でも、後続の行動でそれを補うような、より一貫性のある滑らかな行動系列を生成できるようになります。
まとめ
Self-Forcingの本質は**「自己の不完全さに適応する能力を学習させる」**ことにあります。これは、試行錯誤を通じて学習する強化学習の精神と完全に一致します。
ビデオ生成では「不完全な過去フレーム」から次のフレームを生成する。
強化学習では「不完全な過去の予測/状態/行動」から次の行動を決定する。
このように、Self-Forcingは強化学習、特にモデルベースRLにおける誤差の累積という根深い問題を解決するための、非常に有望なアプローチだと言えるでしょう。
AIはついに次のレベルに到達しそうだ。
巨大なGPUファームはもう不要になるのかもしれない。
