🙌

動画モデルは“ゼロショット学習者”で“推論者”だった件

2025/10/08に公開

 先に結論（TL;DR）
Veo 3 はゼロショットで幅広い課題をこなす（知覚・モデリング・編集・推論）。特に迷路解きのような計画タスクで、Veo 2 を大きく上回る動きを見せる（5×5迷路の pass@10 で 78% vs 14%）。
評価は “動画を生成→自動で正誤判定” という、生成そのものをタスク解答として採点するやり方。迷路では経路の連続性や壁の侵入を自動チェックしている。

弱点も露呈。Veo 2 は序盤の“禁じ手”が多く、Veo 3 でも対称性・アナロジーなどで系統的な誤りが残る（多数決で悪化する条件も）。
一言でいうと、「時間軸を持つ生成モデル＝小さな世界の行動エージェント」。ここから先は、動画→環境→実エージェントへと滑らかに接続していく未来が見える。

 やさしくかみ砕く本編
 1) 何を調べた？論文は「動画モデル（Veo 2/3）に画像や指示を与えて動画を生成させ、その生成動画がタスクを正しくこなしているかを自動で採点」するスタイル。評価範囲は以下の4系統：

Perception（知覚）：対象を見分けたり、特徴を結びつけたり。

Modeling（モデリング）：ぼやけを直す・解像度を上げる等、世界の性質を“予測・補完”。

Manipulation（編集）：画像やシーンに具体的な編集を入れる。

Reasoning（推論）：迷路、対称性、アナロジー（類推）など、段取り・計画・ルールが求められる課題。
モデル・プロンプト設定（Veo 2/3、Nano Banana、Gemini 2.5 Pro等）や自動採点（例：Geminiを判定補助に使用）の詳細は本文・付録に明記。

 2) 見て納得：サンプル図解
 ■ Perception：結合探索（binding problem）生成の早・中・後フレームを並べると、**「青い球が瞬時に光る」**といった指示を守れているかが視覚的にわかる。

（Figure 17 相当のコマ）

 ■ Modeling：超解像（Super-resolution）低解像→高解像へ“時間の中で補完”していく挙動が見える。

 ■ Perception：ダルメシアン（点描から犬を抽出）背景ノイズの中から対象が立ち上がってくる“見えの成立”も、動画だと自然。

 ■ Manipulation：ドゥードゥル編集／合成ラフな落書きからの編集や、月とシマウマの合成など“指示通りに世界をいじる”系。

編集ベンチ（Emu-Edit一部）では、三人アノテータで忠実性・副作用の少なさもチェック。Veo 3 は質感保持に強み。

 ■ Reasoning：手の巧緻性（物体操作の段取り）「段取り」が動画時間で表現されると、計画性が見えやすい。

 ■ Reasoning：文字の認識・生成・構文解析（Omniglot風タスク）“動かしっぱなし”の傾向が不利に働く課題では、**色ホイールを出して“解答が固まった合図”**を作るなど、面白い工夫も。

 3) どのへんが“新しい”の？
出力＝行動：LLMの“テキスト回答”と違って、動画生成そのものがタスクの解。迷路なら“正しい経路で動く”ことが解答。採点は自動（経路の連続性や壁との交差をチェック）。

ゼロショットで汎用：特化学習なしで、知覚→編集→推論まで横断できるところが魅力。迷路ではVeo 3 が着実に伸び、**Veo 2 の“反則ムーブ癖”**を大幅に抑えた。

動画ならではの指示性：対称性やアナロジーでも、“フレームをまたいだ制約”（止める・揺らさない・対象だけ変える等）を明示できる。付録では対称性評価の細かい閾値まで定義。

 4) どこがまだ難しい？
系統誤りが残る：アナロジー課題では、試行回数を増やす多数決が逆効果になる条件がある。反射や回転の軸を取り違える“癖”が見える。

“動かしたい本能”：Veo 3 には「常に何か動かしたい」傾向があり、最初期に答えが決まる課題（該当セルだけ色を変える等）では動かし過ぎが減点に。

評価の設計が命：自動採点は便利だが、判定バイアスや境界条件（微小な途切れをどう扱うか等）が難所。迷路では細かいルールを明文化している。

 この先、何が起きそう？動画モデル＝小型エージェント化が進む

動画で「見て・計画して・動く」を学べるなら、シミュレーション上のエージェント（あるいはロボットの“予習”）として使いやすい。迷路のような制約付き計画が伸びるほど、実世界タスクへのブリッジが太くなる。
“生成→採点→改善”の自動ループ

Gemini など外部判定器で自動ラベルを回す設計は、自己改善ループの土台になる。より良い採点器や反例生成が入れば、カリキュラム学習っぽい進化が自然に立ち上がる。
ツール使用や環境インターフェースの合流

動画編集や合成が強い＝外部ツールの操作の“絵姿”がうまい、ということ。将来的にはGUI操作の模倣→API化へと進み、マルチモーダル・エージェントが当たり前になるはず。
評価の標準化と“失敗の言語化”

対称性・アナロジーの系統誤りは、モデルのバイアスをあぶり出す“鏡”。なぜ誤ったのかをテキスト化できる“自己診断プロンプト＋可視化”のセットが、研究でも実務でも鍵になる。

 まとめ一言動画モデルは「良い映像職人」を越えて、“考えて正しく動く存在”に近づいている。まだ反射・回転の取り違えみたいなクセはあるけれど、ゼロショットで計画し、動きで答えるという発想は、たぶん次の一手を連れてくる。静止画の次は、時間が主役だ。