強化学習はLLMの推論能力を底上げするのか?
本記事はNeurIPS 2025でBest Paperを受賞したDoes Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?についての要約記事です。
忙しい人向け要約
強化学習により「AIは賢くなる(未知の能力を得る)」という通説に対し、本論文では「既存の知識を効率よく引き出せるようにしているだけに過ぎず新たな知識を獲得しているわけではない」という衝撃的な結論を提示している。

前提知識
強化学習/Reinforcement Learning(RL)
AIが仮想環境の中で試行錯誤を繰り返し、報酬(リワード)を最大化する行動を自ら学習する機械学習の手法。
Reinforcement Learning with Verifiable Rewards(RLVR)
数学の問題やコードの動作確認など、ルールベースで客観的に判定できる報酬を用いてLLMを学習させる強化学習の手法。
Pass@k
タスクを解かせる際に、モデルにk回分の回答を作成させその中に正解が1個以上含まれている確率を表す評価指標。Pass@1は回答を1つだけ提出させてそれが正解している確率、Pass@100は回答を100個提出させてその中に1つでも正解がある確率。
実験方法
Qwen2.5, LLaMA-3.1等のBase Modelと、そのモデルに強化学習を施したRLVR Modelの性能を比較。「数千回試行して一度でも解ければ、その能力を持っている」と定義しRLVR ModelがBaseモデルが解けなかったタスクを解決できるようになっているのかどうかをPass@kをもとに判定した。

(実験結果)強化学習により低いkでのPass@kは向上するが高いkでのPass@kは低下する
まずはMathematicsに関する結果から。
kが小さい場合ではRLVRが実施されたモデルが高いスコアを示す。しかしながらkを増やした場合の比較ではRLVRがBase Modelよりも劣っていることを示している。

次はCode Generation、Visual Reasoningの結果である。
こちらもMathematicsと同様の現象が起きている。

考察
1. RLVR Modelの思考プロセスはBase Modelの中にすでに存在していた
正解率のヒストグラムを描くとBase Modelは単調減少、RLVR ModelはU字型
Base Model: RLVR Modelと比べて「確率は低いが正解できる問題」を多く有する。そこからは単調減少。(ヒストグラム上の緑色バー)
RLVR Model: 分布が0.0(全く解けない)と1.0(十中八九解ける)が高いU字型となっている。
(ヒストグラム上の赤色バー)
RLVRはBase Modelが解ける見込みのある問題を「確実に解ける」ように強化したが、その代償として、Base Modelなら試行錯誤で解けたかもしれない問題を「全く解けない」状態にした。

RLVRはBase Modelの部分集合である
Base Modelが解けてRLVR Modelでは解けない問題はAIME24で13.3%、MATH500で3.6%あったが、Base Modelが解けなくてRLVR Modelでは解ける問題はAIMEで0%、MATH500で1%とほとんどゼロに近い。
つまりRLVRモデルが解ける問題はBaseモデルが解ける問題の部分集合になっている。

RL Modelの回答はBase Modelにとっても非常に生成しやすいものである
パープレキシティを導入する。モデルmが、ある問題xに対して生成された回答Yをどれくらい「予測しやすいか(驚かないか)」を示す指標である。パープレキシティが低いほど、そのモデルにとってその回答は「生成する確率が高い(自分が出力しそうな回答である)」ことを意味する。

Figure 6を見るとBase ModelからみたRLVRのPerplexityはとて小さい値であることがわかると同時に、Base ModelからみたBase Modelの出力のPerplexityすら下回っている。
RLVR Modelの出力はBase Modelがとても生成しやすいものであることがわかる。

2. 蒸留は推論能力を底上げする
蒸留(Distill)を実施するとkが小さい場合、大きい場合の両方でBase Modelを上回る。
強化学習はBase Modelの中にあった能力を引き出す力を改善するだけだが、蒸留は教師モデルから新しい推論パターンを導入できるため、推論能力を底上げできると考えられる。

3. 複数のRL training手法でも同様の現象が再現された
Sampling Efficiency Gap(ΔSE)という評価指標を定義する。Base ModelのPass@256と各種RL ModelのPass@1の差をとったものである。
強化学習の目的はBase Modelが何百回も考えてやっと出せる正解を一発で出せるようにすることなので、この差(ギャップ)が小さいほど優秀なアルゴリズムと言える。
Figure 8の結果よりどのアルゴリズムを使用しても、Base Modelとの差は大きく開いており、既存のRLVRの手法では改善の余地があることがわかる。

4. RL trainingの影響
Asymptotic Effects
Figure 1の結果からわかるようにRL Modelは@pass@1を向上させるものの、pass@256を減少させてしまう。RLにより本来Base Modelが解ける可能性があった問題が解けなくなっている。
Effect of Number of Rollouts n
生成する回答の数を増やしてもBase Modelの性能を上回ることができない。
Effect of KL Loss
RLにより元のモデルとの分布が離れすぎないようにKLペナルティを付与して分布の乖離を抑えようとしても、Pass@1ではBase Modelと同様の正解率、Pass@128ではBaseモデルからはるかに低くなる。(Figure 16の黄色線)

5. モデルのランダム性を増やして思考の柔軟性は戻らない
モデルのランダム性を増やせば元のモデルの思考の柔軟性は元に戻るのでは?という仮説を検証したが結果戻らないことがわかった。
モデルの推論時の温度パラメータを高く設定して幅広い出力を得られるようにしても、高いkにおいてRLモデルはBass Modelの性能を下回ったままであった。
6. モデルサイズを大きくしても同じ現象が再現された
DeepSeek-R1に匹敵する性能を持つとされる「Magistral-Medium(RLVR版)」と、その元となった「Mistral-Medium-3(Base版)」を比較した。
サンプル数を増やしていくとその差はどんどん縮まっていき、最終的な到達点(Coverage)には「ほとんど改善が見られない」 という結果になった。

まとめ
「強化学習によりモデルが新しい能力を獲得する」というこれまでの通説を否定する面白い視点の論文でした。
RLVRは実用的な手法であった反面、論文執筆時点で提案されていた様々な手法に関してはBase Modelのポテンシャルという天井に頭をぶつけている状態だったと言えます。
既存の能力の枠を飛び越え、真に新しい推論パターンを獲得できるような、より高度なアルゴリズムの実現が待たれます。
株式会社MyVision開発部のテックブログです! 採用情報はこちら corporate.my-vision.co.jp/engineering-careers
Discussion