🙌

動画モデルは“ゼロショット学習者”で“推論者”だった件

に公開

先に結論(TL;DR)

  • Veo 3 はゼロショットで幅広い課題をこなす(知覚・モデリング・編集・推論)。特に迷路解きのような計画タスクで、Veo 2 を大きく上回る動きを見せる(5×5迷路の pass@1078% vs 14%)。
  • 評価は “動画を生成→自動で正誤判定” という、生成そのものをタスク解答として採点するやり方。迷路では経路の連続性や壁の侵入を自動チェックしている。
  • 弱点も露呈。Veo 2 は序盤の“禁じ手”が多く、Veo 3 でも対称性・アナロジーなどで系統的な誤りが残る(多数決で悪化する条件も)。
  • 一言でいうと、「時間軸を持つ生成モデル=小さな世界の行動エージェント」。ここから先は、動画→環境→実エージェントへと滑らかに接続していく未来が見える。

やさしくかみ砕く本編

1) 何を調べた?

論文は「動画モデル(Veo 2/3)に画像や指示を与えて動画を生成させ、その生成動画がタスクを正しくこなしているかを自動で採点」するスタイル。評価範囲は以下の4系統:

  • Perception(知覚):対象を見分けたり、特徴を結びつけたり。
  • Modeling(モデリング):ぼやけを直す・解像度を上げる等、世界の性質を“予測・補完”。
  • Manipulation(編集):画像やシーンに具体的な編集を入れる。
  • Reasoning(推論):迷路、対称性、アナロジー(類推)など、段取り・計画・ルールが求められる課題。

モデル・プロンプト設定(Veo 2/3、Nano Banana、Gemini 2.5 Pro等)や自動採点(例:Geminiを判定補助に使用)の詳細は本文・付録に明記。


2) 見て納得:サンプル図解

■ Perception:結合探索(binding problem)

生成の早・中・後フレームを並べると、**「青い球が瞬時に光る」**といった指示を守れているかが視覚的にわかる。
(Figure 17 相当のコマ)



■ Modeling:超解像(Super-resolution)

低解像→高解像へ“時間の中で補完”していく挙動が見える。

■ Perception:ダルメシアン(点描から犬を抽出)

背景ノイズの中から対象が立ち上がってくる“見えの成立”も、動画だと自然。

■ Manipulation:ドゥードゥル編集/合成

ラフな落書きからの編集や、月とシマウマの合成など“指示通りに世界をいじる”系。



編集ベンチ(Emu-Edit一部)では、三人アノテータで忠実性・副作用の少なさもチェック。Veo 3 は質感保持に強み。

■ Reasoning:手の巧緻性(物体操作の段取り)

「段取り」が動画時間で表現されると、計画性が見えやすい。


■ Reasoning:文字の認識・生成・構文解析(Omniglot風タスク)

“動かしっぱなし”の傾向が不利に働く課題では、**色ホイールを出して“解答が固まった合図”**を作るなど、面白い工夫も。



3) どのへんが“新しい”の?

  • 出力=行動:LLMの“テキスト回答”と違って、動画生成そのものがタスクの解。迷路なら“正しい経路で動く”ことが解答。採点は自動(経路の連続性や壁との交差をチェック)。
  • ゼロショットで汎用:特化学習なしで、知覚→編集→推論まで横断できるところが魅力。迷路ではVeo 3 が着実に伸び、**Veo 2 の“反則ムーブ癖”**を大幅に抑えた。
  • 動画ならではの指示性:対称性やアナロジーでも、“フレームをまたいだ制約”(止める・揺らさない・対象だけ変える等)を明示できる。付録では対称性評価の細かい閾値まで定義。

4) どこがまだ難しい?

  • 系統誤りが残る:アナロジー課題では、試行回数を増やす多数決が逆効果になる条件がある。反射や回転の軸を取り違える“癖”が見える。
  • “動かしたい本能”:Veo 3 には「常に何か動かしたい」傾向があり、最初期に答えが決まる課題(該当セルだけ色を変える等)では動かし過ぎが減点に。
  • 評価の設計が命:自動採点は便利だが、判定バイアス境界条件(微小な途切れをどう扱うか等)が難所。迷路では細かいルールを明文化している。

この先、何が起きそう?

  1. 動画モデル=小型エージェント化が進む
    動画で「見て・計画して・動く」を学べるなら、シミュレーション上のエージェント(あるいはロボットの“予習”)として使いやすい。迷路のような制約付き計画が伸びるほど、実世界タスクへのブリッジが太くなる。

  2. “生成→採点→改善”の自動ループ
    Gemini など外部判定器で自動ラベルを回す設計は、自己改善ループの土台になる。より良い採点器や反例生成が入れば、カリキュラム学習っぽい進化が自然に立ち上がる。

  3. ツール使用や環境インターフェースの合流
    動画編集や合成が強い=外部ツールの操作の“絵姿”がうまい、ということ。将来的にはGUI操作の模倣→API化へと進み、マルチモーダル・エージェントが当たり前になるはず。

  4. 評価の標準化と“失敗の言語化”
    対称性・アナロジーの系統誤りは、モデルのバイアスをあぶり出す“鏡”。なぜ誤ったのかをテキスト化できる“自己診断プロンプト+可視化”のセットが、研究でも実務でも鍵になる。


まとめ一言

動画モデルは「良い映像職人」を越えて、“考えて正しく動く存在”に近づいている。まだ反射・回転の取り違えみたいなクセはあるけれど、ゼロショットで計画し、動きで答えるという発想は、たぶん次の一手を連れてくる。静止画の次は、時間が主役だ。

Discussion