動画モデルは“ゼロショット学習者”で“推論者”だった件
先に結論(TL;DR)
- Veo 3 はゼロショットで幅広い課題をこなす(知覚・モデリング・編集・推論)。特に迷路解きのような計画タスクで、Veo 2 を大きく上回る動きを見せる(5×5迷路の pass@10 で 78% vs 14%)。
- 評価は “動画を生成→自動で正誤判定” という、生成そのものをタスク解答として採点するやり方。迷路では経路の連続性や壁の侵入を自動チェックしている。
- 弱点も露呈。Veo 2 は序盤の“禁じ手”が多く、Veo 3 でも対称性・アナロジーなどで系統的な誤りが残る(多数決で悪化する条件も)。
- 一言でいうと、「時間軸を持つ生成モデル=小さな世界の行動エージェント」。ここから先は、動画→環境→実エージェントへと滑らかに接続していく未来が見える。
やさしくかみ砕く本編
1) 何を調べた?
論文は「動画モデル(Veo 2/3)に画像や指示を与えて動画を生成させ、その生成動画がタスクを正しくこなしているかを自動で採点」するスタイル。評価範囲は以下の4系統:
- Perception(知覚):対象を見分けたり、特徴を結びつけたり。
- Modeling(モデリング):ぼやけを直す・解像度を上げる等、世界の性質を“予測・補完”。
- Manipulation(編集):画像やシーンに具体的な編集を入れる。
- Reasoning(推論):迷路、対称性、アナロジー(類推)など、段取り・計画・ルールが求められる課題。
モデル・プロンプト設定(Veo 2/3、Nano Banana、Gemini 2.5 Pro等)や自動採点(例:Geminiを判定補助に使用)の詳細は本文・付録に明記。
2) 見て納得:サンプル図解
■ Perception:結合探索(binding problem)
生成の早・中・後フレームを並べると、**「青い球が瞬時に光る」**といった指示を守れているかが視覚的にわかる。
(Figure 17 相当のコマ)
■ Modeling:超解像(Super-resolution)
低解像→高解像へ“時間の中で補完”していく挙動が見える。
■ Perception:ダルメシアン(点描から犬を抽出)
背景ノイズの中から対象が立ち上がってくる“見えの成立”も、動画だと自然。
■ Manipulation:ドゥードゥル編集/合成
ラフな落書きからの編集や、月とシマウマの合成など“指示通りに世界をいじる”系。
編集ベンチ(Emu-Edit一部)では、三人アノテータで忠実性・副作用の少なさもチェック。Veo 3 は質感保持に強み。
■ Reasoning:手の巧緻性(物体操作の段取り)
「段取り」が動画時間で表現されると、計画性が見えやすい。
■ Reasoning:文字の認識・生成・構文解析(Omniglot風タスク)
“動かしっぱなし”の傾向が不利に働く課題では、**色ホイールを出して“解答が固まった合図”**を作るなど、面白い工夫も。
3) どのへんが“新しい”の?
- 出力=行動:LLMの“テキスト回答”と違って、動画生成そのものがタスクの解。迷路なら“正しい経路で動く”ことが解答。採点は自動(経路の連続性や壁との交差をチェック)。
- ゼロショットで汎用:特化学習なしで、知覚→編集→推論まで横断できるところが魅力。迷路ではVeo 3 が着実に伸び、**Veo 2 の“反則ムーブ癖”**を大幅に抑えた。
- 動画ならではの指示性:対称性やアナロジーでも、“フレームをまたいだ制約”(止める・揺らさない・対象だけ変える等)を明示できる。付録では対称性評価の細かい閾値まで定義。
4) どこがまだ難しい?
- 系統誤りが残る:アナロジー課題では、試行回数を増やす多数決が逆効果になる条件がある。反射や回転の軸を取り違える“癖”が見える。
- “動かしたい本能”:Veo 3 には「常に何か動かしたい」傾向があり、最初期に答えが決まる課題(該当セルだけ色を変える等)では動かし過ぎが減点に。
- 評価の設計が命:自動採点は便利だが、判定バイアスや境界条件(微小な途切れをどう扱うか等)が難所。迷路では細かいルールを明文化している。
この先、何が起きそう?
-
動画モデル=小型エージェント化が進む
動画で「見て・計画して・動く」を学べるなら、シミュレーション上のエージェント(あるいはロボットの“予習”)として使いやすい。迷路のような制約付き計画が伸びるほど、実世界タスクへのブリッジが太くなる。 -
“生成→採点→改善”の自動ループ
Gemini など外部判定器で自動ラベルを回す設計は、自己改善ループの土台になる。より良い採点器や反例生成が入れば、カリキュラム学習っぽい進化が自然に立ち上がる。 -
ツール使用や環境インターフェースの合流
動画編集や合成が強い=外部ツールの操作の“絵姿”がうまい、ということ。将来的にはGUI操作の模倣→API化へと進み、マルチモーダル・エージェントが当たり前になるはず。 -
評価の標準化と“失敗の言語化”
対称性・アナロジーの系統誤りは、モデルのバイアスをあぶり出す“鏡”。なぜ誤ったのかをテキスト化できる“自己診断プロンプト+可視化”のセットが、研究でも実務でも鍵になる。
まとめ一言
動画モデルは「良い映像職人」を越えて、“考えて正しく動く存在”に近づいている。まだ反射・回転の取り違えみたいなクセはあるけれど、ゼロショットで計画し、動きで答えるという発想は、たぶん次の一手を連れてくる。静止画の次は、時間が主役だ。
Discussion