🕌

ラベルなしデータで自己改善する強化学習手法-TTRL

2025/08/12に公開

 目的alphaXivを見てたら，目に留まったので，自分なりにまとめてみる．

 どんな論文かLLM の推論タスクに関して，理想的なラベルがないデータで強化学習を行う手法（Test-Time Reinforcement Learning; TTRL）を提案．
TTRL は、以下の 4 つのベンチマークで評価され，複雑な推論タスクの性能を大幅に向上させた．

（詳細な改善度合いについては論文を確認）
GPQA-Diamond (2024) によって提案された、大学院レベルの Google-Proof
Question Answering ベンチマークの、挑戦的で質の高いサブセット
AIME 2024: (2024) による数学的推論ベンチマーク
AMC: (2024) による数学的推論ベンチマーク
MATH-500: (2021) による数学的推論ベンチマーク
https://arxiv.org/abs/2504.16084
https://github.com/PRIME-RL/TTRL

 背景・課題LLM に対する従来の強化学習アプローチは，人間のアノテーションデータまたは検証可能な正解に大きく依存している．これは複雑な推論タスクでは非常に費用がかかり，非現実的．

 TTRL フレームワークTTRL フレームワークは，次の 4 つのステップからなる．
多数決によるラベル推定
ルールベースの報酬計算
方策最適化
反復的な自己改善

 1. 多数決によるラベル推定各テスト問題に対して，モデルは繰り返しサンプリングを行い，複数の候補応答を生成.

これらの応答は回答抽出器を通して予測回答を得た後，多数決によって最終的な合意回答（擬似ラベル）を決定.

 2. ルールベースの報酬計算多数決で得られた擬似ラベルを用いて，各個別応答に対して二値の報酬関数を計算．

R(\hat{y}^i, y^*) =
\begin{cases}
1, & \text{if } \hat{y}^i = y^* \\
0, & \text{otherwise}
\end{cases}

 3. 方策最適化強化学習を用いて，期待報酬を最大化するようにモデルパラメータを更新．

\theta \leftarrow \theta + \eta \nabla_{\theta} \mathbb{E}_{y \sim \pi_{\theta}(\cdot \mid x)} \left[ r(y, y^*) \right]

 4. 反復的な自己改善このプロセスを繰り返すことで，モデル性能の向上がより良い擬似ラベルを生み出し，それがさらに性能向上へとつながる正のフィードバックループが形成される．

 感想LLM の学習は
事前学習（Pre-training）
微調整（Fine-tuning）
RLHF（Reinforcement Learning with Human Feedback）
の 3 段階から構成されるが，
この中で TTRL は、ファインチューニング段階で，特に強化学習の枠組みを「ラベルなしのテストデータ」という新たな設定に適用しようとした研究かな．
最初に，「半教師あり学習の一種である Pseudo-Label 手法じゃん！」ってなった．

「モデルが自分で推定したラベルを使って自己改善する」という発想は共通しているしね．
でも，複雑な推論タスクで，性能大幅に改善しているから，まさに，人間の「教え」なしに自律的に性能を向上させる AI への一歩としての興味深いアプローチと思った．

GitHubで編集を提案

目的

どんな論文か

背景・課題

TTRL フレームワーク

1. 多数決によるラベル推定

2. ルールベースの報酬計算

3. 方策最適化

4. 反復的な自己改善

感想

Discussion