🕌
ラベルなしデータで自己改善する強化学習手法-TTRL
目的
alphaXivを見てたら,目に留まったので,自分なりにまとめてみる.
どんな論文か
LLM の推論タスクに関して,理想的なラベルがないデータで強化学習を行う手法(Test-Time Reinforcement Learning; TTRL)を提案.
TTRL は、以下の 4 つのベンチマークで評価され,複雑な推論タスクの性能を大幅に向上させた.
(詳細な改善度合いについては論文を確認)
- GPQA-Diamond (2024) によって提案された、大学院レベルの Google-Proof
- Question Answering ベンチマークの、挑戦的で質の高いサブセット
- AIME 2024: (2024) による数学的推論ベンチマーク
- AMC: (2024) による数学的推論ベンチマーク
- MATH-500: (2021) による数学的推論ベンチマーク
背景・課題
- LLM に対する従来の強化学習アプローチは,人間のアノテーションデータまたは検証可能な正解に大きく依存している.これは複雑な推論タスクでは非常に費用がかかり,非現実的.
TTRL フレームワーク
TTRL フレームワークは,次の 4 つのステップからなる.
- 多数決によるラベル推定
- ルールベースの報酬計算
- 方策最適化
- 反復的な自己改善

1. 多数決によるラベル推定
各テスト問題に対して,モデルは繰り返しサンプリングを行い,複数の候補応答を生成.
これらの応答は回答抽出器を通して予測回答を得た後,多数決によって最終的な合意回答(擬似ラベル)を決定.
2. ルールベースの報酬計算
多数決で得られた擬似ラベルを用いて,各個別応答に対して二値の報酬関数を計算.
3. 方策最適化
強化学習を用いて,期待報酬を最大化するようにモデルパラメータを更新.
4. 反復的な自己改善
このプロセスを繰り返すことで,モデル性能の向上がより良い擬似ラベルを生み出し,それがさらに性能向上へとつながる正のフィードバックループが形成される.
感想
LLM の学習は
- 事前学習(Pre-training)
- 微調整(Fine-tuning)
- RLHF(Reinforcement Learning with Human Feedback)
の 3 段階から構成されるが,
この中で TTRL は、ファインチューニング段階で,特に強化学習の枠組みを「ラベルなしのテストデータ」という新たな設定に適用しようとした研究かな.
最初に,「半教師あり学習の一種である Pseudo-Label 手法じゃん!」ってなった.
「モデルが自分で推定したラベルを使って自己改善する」という発想は共通しているしね.
でも,複雑な推論タスクで,性能大幅に改善しているから,まさに,人間の「教え」なしに自律的に性能を向上させる AI への一歩としての興味深いアプローチと思った.
Discussion