【LLM Tips/ML Tips】強化学習(RL)関連の論文調査📝
必要なのは自信だけ:言語モデルの少数ショット強化学習による微調整📝
大規模言語モデル(LLM)は推論に優れていますが、学習後の処理はタスク目標と動作を一致させる上で依然として重要です。既存の強化学習(RL)手法は、多くの場合、コストのかかる人による注釈や外部報酬モデルに依存しています。
本研究では、モデル自身の信頼度を報酬信号として使用することで、ラベル、選好モデル、報酬エンジニアリングの必要性を排除する、自信による強化学習(RLSC)を提案します。
質問あたりわずか16個のサンプルと10または20の学習ステップでQwen2.5-Math-7Bに適用したRLSCは、AIME2024で+13.4%、MATH500で+21.2%、Minerva Mathで+21.7%、Olympiadbenchで+20.8%、AMC23で+9.7%の精度向上を実現します。
RLSCは、少数のサンプルとラベルなしの教師のみを必要とする、推論モデル向けのシンプルでスケーラブルな学習後の処理方法を提供します。
推論か記憶か?データ汚染による強化学習の信頼性の低い結果
大規模言語モデル(LLM)の推論能力は、長年にわたり研究の焦点となってきました。
近年の研究は、強化学習(RL)を用いてこれらの能力をさらに強化しており、多くの新しい手法が、外部からの監督を最小限、あるいは全く必要とせずに大幅な改善を実証しています。
驚くべきことに、ランダムまたは不正確な報酬信号が推論性能を向上させる可能性があることを示唆する研究さえあります。
しかし、これらのブレークスルーは主にQwen2.5モデルファミリーにおいて報告され、MATH-500、AMC、AIMEといった著名なベンチマークで評価されている一方で、Llamaのような他のモデルでは同様の向上を達成できていないため、さらなる調査が必要です。
私たちの分析によると、Qwen2.5は優れた数学的推論性能を達成しているものの、大規模なWebコーパスで事前学習されているため、一般的なベンチマークにおけるデータ汚染の影響を受けやすいことが示されています。
その結果、これらのベンチマークから得られる結果は信頼できない可能性があります。
この問題に対処するため、任意の長さと難易度の完全に合成された算術問題を生成するジェネレータを導入し、RandomCalculationと呼ばれるクリーンなデータセットを生成します。
これらの漏れのないデータセットを用いて、正確な報酬信号のみが一貫してパフォーマンスを向上させる一方、ノイズの多い信号や不正確な信号はパフォーマンスを向上させないことを示します。
信頼性の高い結論を得るためには、汚染されていないベンチマークと多様なモデルファミリーを用いて強化学習手法を評価することを推奨します。
数学的推論は法学修士課程の一般的な能力を向上させるか?法学修士課程の推論の移転可能性を理解する
驚いたことに、数学で成功したモデルのほとんどが、その向上を他の領域に転用できないことがわかりました。
この現象を厳密に研究するために、数学のみのデータを使用し、異なる調整方法を使用して、Qwen3-14Bモデルに対して制御された実験を実施しました。
強化学習(RL)調整モデルは領域を超えて一般化しますが、教師あり微調整(SFT)調整モデルは一般的な能力を忘れてしまうことが多いことがわかりました。潜在空間表現とトークン空間分布シフトの分析により、SFTは表現と出力に大きなドリフトを引き起こすのに対し、RLは一般的なドメイン構造を維持することが明らかになりました。
私たちの結果は、標準的な学習後のレシピ、特に推論モデルの進化におけるSFT抽出データへの依存を再考する必要があることを示唆しています。
合成データ強化学習:必要なのはタスク定義だけ
強化学習(RL)は、基礎モデルを特殊なタスクに適応させる強力な手段ですが、大規模な人間によるラベル付けデータに依存するため、幅広い導入が制限されています。
本稿では、タスク定義から生成された合成データのみを用いてモデルを強化微調整する、シンプルで汎用的なフレームワークである合成データRLを紹介します。
本手法は、まずタスク定義と取得した文書から質問と回答のペアを生成し、次にモデルの解読可能性に基づいて質問の難易度を調整し、RLトレーニング用のサンプル全体におけるモデルの平均合格率を用いて質問を選択します。
Qwen-2.5-7Bにおいて、本手法はGSM8K(命令調整版と比較して+2.9pp、自己指導版と比較して+6.6pp)、MATH(8.7%)、GPQA(SynthLLMと比較して+7.0pp)、MedQA(8.9%)、CQA(法律)(17.7%)、CFA(金融)(13.7%)において、ベースモデルと比較して絶対値で29.2%の改善を達成しました。
これは、同じデータバジェットにおける教師あり微調整を上回り、データセット全体にわたって完全な人間のデータを使用したRLとほぼ一致します(例:GSM8Kで+17.2pp)。100人の人間のデモンストレーションを追加しても、GSM8Kのパフォーマンスはわずか0.4ppしか向上せず、付加価値は限られていることを示しています。
人間によるデータ注釈を削減することで、合成データRLはスケーラブルで効率的なRLベースのモデル適応を可能にします。
クロスドメインの観点からLLM推論のための強化学習を再考する
強化学習(RL)は、大規模言語モデル(LLM)推論を向上させる有望なアプローチとして浮上していますが、多くのオープンな取り組みは数学とコードに狭く焦点を当てており、その幅広い適用性について理解が限定されています。
重要な課題は、多様な推論領域にわたる信頼性が高くスケーラブルなRL報酬シグナルの欠如にあります。本稿では、数学、コード、科学、論理、シミュレーション、表形式の6つの推論領域にわたる92,000件の検証可能な例をキュレーションしたRL推論コーパスであるGuruを紹介します。
各コーパスは、RLトレーニングの信頼性と有効性を確保するために、領域固有の報酬設計、重複排除、フィルタリングを通じて構築されています。
Guruに基づいて、LLM推論におけるRLの確立された知見を体系的に再検討し、領域間での大きなばらつきを観察します。
例えば、先行研究では強化学習は主に事前学習済みモデルから既存の知識を引き出すと示唆されていますが、本研究の結果はより微妙なパターンを示しています。
事前学習で頻繁に使用される領域(数学、コード、科学)はクロスドメイン強化学習の恩恵を受けやすいのに対し、事前学習の露出が限られている領域(論理、シミュレーション、表形式)では、有意なパフォーマンス向上を得るためにドメイン内学習が必要であり、強化学習が真のスキル獲得を促進する可能性が高いことが示唆されています。
最後に、公開データを用いて強化学習されたオープンモデルの中で最先端のパフォーマンスを達成した2つのモデル、Guru-7BとGuru-32Bを紹介します。
これらのモデルは、6つの推論領域にわたる17タスク評価スイートにおいて、最高のベースラインをそれぞれ7.9%と6.7%上回りました。
MathGenie: LLM の数学的推論を強化するための質問バックトランスレーションによる合成データの生成
大規模言語モデル(LLM)は数学的推論において大きな可能性を示してきました。しかし、この分野において、既存のオープンソースモデルとGPT-4などのクローズドソースモデルとの間には、依然としてパフォーマンスのギャップが存在します。
本稿では、小規模な問題-解データセット(シードデータと表記)から多様で信頼性の高い数学問題を生成するための新しい手法であるMathGenieを紹介します。シードデータの正解解を拡張し、拡張された解を新しい問題に再翻訳するための逆翻訳モデルを学習します。
その後、新しい問題に対するコード統合型ソリューションを生成します。コード統合型ソリューションの正確性を保証するため、ソリューション検証には根拠に基づく戦略を採用します。
70億から700億に及ぶ様々な事前学習済みモデルを新たにキュレーションされたデータで学習し、提案された拡張手法の有効性をテストしました。
その結果、MathGenieLMと呼ばれるモデルファミリーが生まれました。
これらのモデルは、5つの代表的な数学的推論データセットにおいて、従来のオープンソースモデルを一貫して上回り、最先端のパフォーマンスを達成しました。
特に、MathGenieLM-InternLM2 は GSM8K で 87.7%、MATH で 55.7% の精度を達成し、オープンソース言語モデルの中で最高の総合スコアを獲得しました。