🐷

NeurIPS 2025 ベストペーパーに選ばれた研究をやさしく解説

に公開

はじめに

近年、言語モデルなどで「スケール(モデルを巨大化すること)」による性能向上や能力の創発が注目されてきました。しかし強化学習(RL)では、同じようなスケール効果はあまり報告されていませんでした。

今回、NeurIPS 2025 のベストペーパーの一つに選ばれた研究は、この常識を覆しました。
“対比強化学習(Contrastive Reinforcement Learning)”と
“1000層級の非常に深いネットワーク”
を組み合わせることで、スケールによって大きな性能改善や新しいスキルの創発が確認されたのです。

本記事では、この研究のポイントを大学1年生にも理解できるようにまとめます。


1. まず「対比強化学習」とは何か

通常の強化学習では、エージェントは「報酬」をもとに行動を学びます。しかし、多くのタスクでは「ゴールに到達したら1、それ以外は0」という非常にシンプルな報酬しか得られません。これを「疎な報酬」と呼び、学習が難しくなります。

対比強化学習(Contrastive RL)は、この問題を別の方向から解決しようとします。

1-1. 方策(ポリシー)

エージェントの行動方針は次のように書かれます。

[
\pi(a \mid s, g)
]

  • ( s ): 現在の状態
  • ( g ): ゴール
  • ( a ): 行動

つまり、現在の状態とゴールの両方を見て行動を選ぶ方式です。

1-2. Critic の役割

Critic(価値を評価するネットワーク)は
「今の状態 (s) で行動 (a) を取ったとき、それはゴール (g) に近づく行動か?」
を判定します。

この評価は次のように定義されます。

[
f(s, a, g) = \Vert \Phi(s, a) - \Psi(g) \Vert^2
]

  • (\Phi(s,a)):状態と行動の埋め込み
  • (\Psi(g)):ゴールの埋め込み

距離が小さいほど「良い行動」とみなされます。

1-3. InfoNCE による学習

Critic は InfoNCE という分類的な目的関数で学習します。

  • バッチの中の「正しいゴール」と「間違ったゴール」を並べて
  • どれが正しいかを当てる分類問題として処理する

強化学習を 価値の回帰ではなく、分類として扱う ことで、大規模化時にも安定して学習できる点が大きな特徴です。

1-4. Actor の学習

Actor(行動を選ぶネットワーク)は、Critic の評価を最大化するように更新されます。
つまり、Critic が「これはゴールに向かっている」と判断する行動を選ぶように学びます。


2. 本研究の最大の特徴:超深いネットワークでのスケール

研究では、通常の4ブロック ResNet を拡張し、ブロック内の dense 層を4→64へ増加
さらに最大では 256層×4ブロック=1024層相当 に達する巨大ネットワークを使用しました。

その結果、次のような大規模な性能向上が報告されています。

  • ロボット操作タスク:2〜5倍
  • 迷路タスク:20倍
  • ヒューマノイドタスク:50倍

これは従来 RL では見られなかったほど大きな改善です。


3. スケールで“突然”創発する能力

ネットワークを深くしていくと性能は滑らかに上がるのではなく、
ある深さを超えたところで突然大きく向上する
現象が確認されました。

例:ヒューマノイドタスク

  • 深さ4:転びながら体を投げてゴールに進む
  • 深さ16:直立歩行を獲得
  • 深さ256:体を折りたたんではね超えるような高度なスキルが創発

強化学習でこのようなレベルの創発が起きるのは極めて珍しい現象です。


4. なぜスケールでうまくいったのか?(研究でわかったこと)

4-1. 大きなバッチサイズが必須

  • バッチサイズは256では不十分
  • 1024〜4096が必要
    理由:InfoNCE では「負例サンプル」が大量に必要で、未来状態の識別に大きく影響するため。

4-2. 幅よりも“深さ”が重要

  • ネットワークの幅を広げるより、深くする方が効果的
  • 特に Critic 側(状態・行動埋め込みとゴール埋め込み)を深くすることが重要

4-3. 探索ノイズの影響は小さい

探索ノイズの有無で大きな差がなく、
深いネットワークが未来予測・表現能力を大幅に向上させたこと
が主要因だと示唆されています。

4-4. 従来 RL にはない利点

対比RLはスケール化で強いだけでなく、次のような実用上の利点もあります。

  • ブートストラップなしで安定(TD法の不安定性を回避)
  • ゴールは固定
  • Q学習特有の overestimation 問題がない
  • デモデータ不要

5. “汎用未来予測器”としての Critic

研究者は、この Critic はただのゴール達成予測ではなく、
「汎用の未来状態予測器」
と呼んでもよい、と述べています。

理由として、Critic が多様なタスクにまたがって一般化し、
「今この行動を取ると、最終的にどうなるか」を高精度に予測する能力を獲得しつつあるからです。


6. まだ解明されていない点

インパクトは大きいものの、わかっていない部分も多く残ります。

  • なぜ極端に深いネットワークで性能が急激に向上するのか
  • なぜ対比RLの枠組みではスケーリングが効き、TD法では効かないのか
  • なぜオフラインRLでは同じ効果が出ないのか

今後の研究で明らかになることが期待されます。


おわりに

本研究は、強化学習において「スケールで創発が起きる」という初めての実証的成果の一つです。
特に、巨大な Critic を InfoNCE で学習するという発想が、スケール時の安定性に大きく貢献している点が重要です。

強化学習の大規模化には多くの課題があると考えられていましたが、
この研究はその壁を突破し、将来的にはロボティクス・ゲームAI・自律エージェントなどの領域に大きな影響を与える可能性があります。

今後、Critic を中心とした「未来予測器」としての役割がどのように拡張されていくのか、非常に興味深い方向性と言えるでしょう。

Discussion