Open14
LLMのFine-tuning周りの論文メモ

Finetuned Language Models Are Zero-Shot Learners
問題意識
- LMタスクに似たデータセットではFine-tuningの性能が改善しない。
- 冗長だから?
本論文のアプローチ
- Zero-shot改善のためのInstruction-tuningを提案。
評価とAblation Study
- 基本的にFine-tuningでのタスクを増やすほど性能は改善。
- Instruction-tuningは8Bくらいまでの小さなモデルだとZero-shotの性能改善はあまり期待できない。
- モデルのキャパシティを使い切っていて新しいタスクでの性能が低くなる?
- 学習、検証時に生テキストそのままではなく、プロンプトテンプレート(Instruction)を使った方が性能が良くなる。
- Few-shotで推論すると性能はさらに改善。またInstruction-tuningあり・なしで比較すると、ありの方がFew-shot性能の標準偏差が小さくなってsensitivityを減少させている。
- Instruction-tuningありの方がprompt tuningの性能も良い。
- 論文のAppendixにあるデータセットごとのContamination具合の図が良い(ベンチマーク評価は鵜呑みにできない)。

P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks
問題意識
- prompt tuningはサイズが10B以下の小さなモデルだと性能改善があまり期待できない。
- 埋め込み(prompt tuning) vs MLP reparameterization (prefix-tuning, P-tuning)
- MLP reparameterizationの方がいいと言われているが、RTEとCoNLL04ではMLPが良く、BoolQとCoNLL12では埋め込みの方が良く一貫性はなかった。
- 一方で、MLPの方が短い仮想トークン数で最適な結果が得やすいというfinding。
本論文のアプローチ
- P-Tuning v2(Deep prompt)はP-tuningのように仮想トークンをNNで学習して埋め込むが入力プロンプトにだけでなく、Transformerレイヤにも埋め込む。
- 追加するパラメータはモデルサイズの0.1-3.0%と他のPEFTに比べて大きめになる。
評価とAblation Study
- 小さなモデルでもある程度機能する。
- マルチタスク学習でも性能は良い。
- 仮想トークンの長さは、分類など簡単なタスクでは小さく(20以下)、sequence taggingなど難しいタスクでは大きく(100前後)設定するのが良い。
- トークン埋め込みを反映させるレイヤの深さは長い方がいいが、短くする場合は出力に近い方に適用する方がいい。

SteerLM: Attribute Conditioned SFT as an (User-Steerable) Alternative to RLHF
問題意識
- SFTだけではRLHFほど人間の嗜好にあった応答ができない。学習時に応答の品質が高いか低いかを区別できない。
- RLHFは一般的に単一の人間の嗜好しか学習できない上に学習手順が複雑。
本論文のアプローチ
- 複数の属性スコア(人の嗜好を反映、品質を始めとして、有用性、創造性、ユーモア、毒性などをスコア化)がアノテーションされたデータセットで、RLHFのReward modelのような属性スコア予測モデル(APM, Attribute Prediction Model)を作成。論文ではOASSTデータセット(13の属性スコアのうち、7つを使用)を使用。入力文と応答文を入力にして、属性スコアを予測する。
- APMを使用して、他のデータセットの属性を予測する(論文ではOASSTに加え、HH-RLHF, M-SID)。クラウドソーシングを使った人間のアノテーションよりもノイズが抑えられ、評価する人が異なることによる属性スコアのバイアスも小さくなる。
- 入力文とAPMでアノテーションされた属性スコアをプロンプトへの入力にして、LLM(論文では独自に学習した43BとLlama2 13Bを使用)をSFT(Attribute Conditioned SFT)する。RLHFと異なり、オフラインで嗜好を学習できるので、学習手順が簡素化され、計算効率も良い。
- LLMで応答を生成したら、APMで属性スコアの中の品質スコアを予測する。品質スコアが高いサンプルを使って、再度SFTする。
- 実験は16 nodeのDGX A100(80GB)を使用して、BS=128, 5 epochs, 最大シーケンス長は4096。APMは検証データセットで損失最小化された重みを選択。 Attribute Conditioned SFT Modelは検証データセットで最も高い品質を得られた重みを選択。
- 推論時は入力文と属性スコアをプロンプトに入れる。オンラインでLLMに嗜好を反映させられる。
評価とAblation Study
- Vicuna Benchmarkで(GPT-4による)評価。SteerLMは品質と有用性の属性スコアを最大値の9、他は0で応答生成。スコアをChat-GPT 3.5に比べてどれくらい良いか評価すると、SteerLM 13Bと43B共にChat-GPT 3.5, Guanaco 65B, Vicuna 13B, Llama 30B (with RLHF, SFT)に比べ良かった。
- 同じ応答を人間(4つのグループ)で評価したが、SteerLM 43BはChat-GPT 3.5, Guanaco 65Bを上回った。
- SteerLMの応答文は他のモデルに比べ、より長文で語彙が豊富であった(これはGPT-4が好む傾向にあるスタイル)。
- Guanaco 65B(OASSTの高品質サンプルでFine-tuningされている)よりも少ないパラメータで良い評価結果を得られた。
- Ablation Studyとして、各フェーズで比較。人間がアノテーションしたOASSTの全サンプルを使った場合や高品質スコアのサンプルを抽出したOASSTデータセットでは、Chat-GPT 3.5に及ばないが、APMでのアノテーションデータを使用するとChat-GPT 3.5を上回り、HH-RLHF, M-SIDをデータセットに追加するとさらに改善し、高品質データでの再学習を加えるとさらに改善した。
- Anthropic Red Team Datasetで毒性について検証。SteerLM 43Bの毒性スコアを0で応答生成するとChat-GPTよりも毒性を抑えられた。

Direct Preference Optimization: Your Language Model is Secretly a Reward Model
問題意識
- RLHF/RLAIFは、プロセスが複雑で時に学習が不安定になるので、明示的な報酬モデルが不要な簡潔な手法を提案。
本論文のアプローチ
- RLHFでは、SFT、報酬モデルの構築、RLのステップで最適化を行うが、DPOでは、報酬関数上の損失関数をポリシー上の損失関数に変換することで、明示的な報酬モデルのフィッティングを回避して、Bradley-Terryモデルのような既存の人間の嗜好モデルの下で最適化する。
- すべてのプロンプト
に対して、X とY_{1} の応答を生成して、人間の嗜好でラベル付けし、データセットを構築。Y_{2} - 人間にとって好ましい応答の尤度が高く、そうではない応答の尤度が低くなるようにBCEを使って学習(通常の教師ありのように学習できる)。
評価とAblation Study
- IMDb datasetを使って評価。KL最小化と報酬最大化について、RLHF(PPO)と比較するとDPOは低いKLを達成しながら高い報酬を達成できた。GTの報酬を使ったPPOよりも優れていた。
- Reddit TL;DR summarization datasetを使って評価。参照モデルに対する要約評価の勝率を各手法で比較。temperatureを変えながら評価したが、DPOはそんなにハイパーパラメータを調整してないが概ね勝率が高かった。 Anthropic HH datasetを使ってシングルターン対話での評価でも他の手法に勝る結果。
- PPOとDPOについて、Reddit TL;DR summarization datasetでアライメントしたモデルでCNN/DailyMail datasetを要約することで分布シフト下を再現して比較。GPT4に対する勝率はPPOよりもDPOの方が高かった。
- GPT4を使った評価の妥当性を確認するため、GPT4と人間の評価との関連性を確認。概ね一致することを確認した。

DoRA: Weight-Decomposed Low-Rank Adaptation
問題意識
- LoRAは追加の推論コストやFTのための計算コストを抑えられるため人気の手法。しかし、LoRAとフルFTとの間にはまだ精度的なギャップが存在する。
本論文のアプローチ
- 事前学習済みのパラメータをmagnitudeとdirectionalに分解して、フルFTとLoRAの(事前学習済みパラメータからの)更新パターンを観察。この違いが両者の精度的なギャップにつながっていると推測(先行研究では主に更新可能なパラメータ数に起因しているとされ、それ以上の分析はされてこなかった)。
- LoRAの更新パターンはmagnitudeとdirectionalが比例して増加、減少される傾向があるが、フルFTの場合はmagnitudeのわずかな変更とdirectionalのより大きな変更など多様な学習パターンを持つ。
- この発見から着想を得て、Weight-Decomposed Low-Rank Adaptation (DoRA)を提案。事前学習済みパタメータをmagnitudeとdirectionalに分解してその両方をFTする。directionalはサイズが大きいので、LoRAを適用。更新パターンがフルFTに近しいものとなって、精度も改善。
評価とAblation Study
- 言語、画像、動画のドメインでLoRAや他の手法と精度を比較。DoRAは一貫してLoRAを上回ったパフォーマンスを残した。
- rankを変更しながらの比較でもDoRAは一貫して優れた結果に。
- QLoRAとQDoRAの比較でもQDoRAは優れた結果に。

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
問題意識
- オープンコミュニティでもReasoningの能力強化の研究は続いているが、OpenAI o1のReasoningに匹敵する性能は得られていない。この研究では純粋なRL (収集に時間のかかるSFTデータを使わない)を使用してReasoningの能力を開発する可能性を探求した。DeepSeek-V3-BaseとGRPOを使用し、数千ステップの学習の結果、OpenAI-o1-0912に匹敵するパフォーマンスを達成した (DeepSeek-R1-Zero)。
- 一方で、読みにくさや言語の混合が課題となったため、これに対処するために少量のコールドスタートと多段階の学習を取り入れたモデル、DeepSeek-R1を開発。OpenAI-o1-1217と同等のパフォーマンスを達成した。
本論文のアプローチ
- RLではGRPOを適用。GRPOは (通常、policy modelと同じサイズの) critic modelを省いて、各クエリについて、古いpolicy modelから出力を複数サンプリングして報酬を推定し、それを最大化する。
- NNベースの報酬モデルを使用せず、「精度報酬(数学問題の答えが正しいか、生成したコードがテストに合格するかなど)」と「フォーマット報酬 (モデルの思考プロセスを‘<think>’と ‘</think>’に収められているか)」のルールベースの報酬システムを採用。NNベースの報酬モデルを使用しなかった理由は、NNベースの報酬モデルがRLのプロセスで報酬のハッキングの影響を受ける可能性があること、報酬モデルの再学習には追加のリソースが必要になること、学習パイプラインが複雑になることが挙げられている。
- DeepSeek-R1-Zeroの課題を解決するために4ステージの学習パイプラインを適用 (DeepSeek-R1)。
- コールドスタート (SFT): 数千の長いCoTサンプルを収集してDeepSeek-V3-Baseを微調整 (RLの開始点)。データは課題を克服できるよう読みやすさ、可読性を重視した。
- GRPO: Reasoningに集中したタスク (コーディング、数学、サイエンス、ロジカル推論)で明確なソリューションが定義された問題で構成。言語の混合の課題に対処するため、言語の一貫性に報酬を導入した (アブレーションではパフォーマンスがわずかに低下したが人間にとっては読みやすくなり、好ましくなる)。
- SFT: ↑が収束したモデルから拒否サンプリングを使って、SFTデータを生成。Reasoningデータ 600kとNon-Reasoningデータ 200k (これはDeepSeek-V3のSFTデータを再利用)の合計800kでDeepSeek-V3-Baseを2 epochs学習。
- GRPO: 主に人間の好みに合わせるためのステージ。明確なソリューションがある場合はルールベースの報酬システム、そうでない問題は報酬モデルを使用して学習。
評価とAblation Study
- RLのプロセス (DeepSeek-R1-Zero)では、明示的にソリューションを教えなくてもモデルが自律してソリューションを開発していくのを観察できた一方、読みにくさや言語の混合といった課題も発見した。
- DeepSeek-R1から抽出したSFTデータでLlamaやQwenなどのDenseモデルの学習 (蒸留)をしたところ、高いパフォーマンスだった (さらにRLを適用するとまた大幅な向上が見られたと報告しているがさらに調査が必要と詳細はなし)。
- Qwen-32B-BaseにRLを直接適用したところ、 QwQ-32B-Previewと同等のパフォーマンスになったが、DeepSeek-R1-Distill-Qwen-32B (蒸留)には遠く及ばないパフォーマンスであった。小さなモデルに対する大規模RLでは、大きなモデルからの蒸留アプローチに勝てない。
- 失敗した試み: プロセス報酬モデル、モンテカルロ木探索
- 課題
- 一般的な能力 (ファンクションコーリング, マルチターン, 複雑なロールプレイ, JSON出力) はDeepSeek-V3に比べ劣っている。
- 言語が混在する。
- プロンプトに敏感。Few-shotを実行すると一貫してパフォーマンスが低下。
- 評価時間が長くなるため、効率の観点からRLプロセスでソフトウェアエンジニアリングタスクを広く適用していない。そのため、パフォーマンスはDeepSeek-V3に比べ大きな改善がない。

SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training
問題意識
- SFTとRLが事後学習でよく利用されているが、モデルの一般化の文脈でそれぞれが果たす役割は不明瞭なまま。
- LLMとVLMについて、SFTとRLがモデルの一般化能力に与える影響について調査。
本論文のアプローチ
- 評価タスクとして以下の2つを用意。
- 算術推論の一般化能力を評価するGeneralPoints環境(Points24の拡張)。これは4枚の数字の入ったカードを全て使ってターゲットとなる数字(デフォルト=24)になる方程式を作るタスク。VLM用は視覚情報として、LLMではテキストとして情報が与えられる。
- 一般化と記憶化を調べるために、カードのJ, Q, Kを11, 12, 13と認識するか、すべて10と認識するかのバリエーションを追加する。視覚情報ではカードの色を変えるバリエーションを追加。
- リアルワールドでの空間推論能力(ナビゲーション能力)を評価するV-IRL環境。GeneralPointsと同様にVLM用は視覚情報として、LLMではテキストとして情報が与えられる。
- 一般化と記憶化を調べるために、北や東などの絶対方向のパターンと左や右などの相対方向のバリエーションを追加。視覚情報ではランドマーク変えるバリエーション(学習していない場所でのケース)を追加。
- 算術推論の一般化能力を評価するGeneralPoints環境(Points24の拡張)。これは4枚の数字の入ったカードを全て使ってターゲットとなる数字(デフォルト=24)になる方程式を作るタスク。VLM用は視覚情報として、LLMではテキストとして情報が与えられる。
- 各タスクで分布内(記憶化)と分布外(一般化)のパフォーマンスを比較。具体的にはGeneralPointsではJ, Q, Kをすべて10として学習して、未知パターンとしてJ, Q, Kを11, 12, 13として扱う。V-IRLでは絶対方向で学習して、未知パターンとして相対方向を扱う。
- モデルはLlama-3.2-Vision-11B。RLはLLMはRLHF、VLMはRL4VLMを使用。RLは事前にSFTを適用している。
評価とAblation Study
- 全体としてSFTは分布内で機能するが、分布外ではパフォーマンスが低下する(記憶化する)。RLでは分布外でもパフォーマンスが向上(一般化する)。RLでは計算ステップを増やすごとにパフォーマンスも改善していくが、SFTではその逆が起きる。
- 特にVLMでのRLでは顕著な改善がみられた。
- SFTを抜いてRLだけを適用すると学習が成立しなかった。指示追従能力が低く、学習が進められるまともな応答を生成できなかったのが原因。また、過剰にチューニングされたSFTを開始点にするとRLをしても分布外のパフォーマンスを改善できない(成否を分ける条件は不明)。

Unpacking DPO and PPO: Disentangling Best Practices for Learning from Preference Feedback
問題意識
- Preference(嗜好)ベースの学習では使用されるデータ、学習アルゴリズム、評価が異なり、各側面の影響を理解することが難しい。この研究ではデータ、学習アルゴリズム、報酬モデル、ポリシートレーニングプロンプトの4つの側面がダウンストリームのパフォーマンスに与える影響を体系的に調査した。
本論文のアプローチ
- 実験設定
- PPOとDPOで4つの側面の影響を分析
- モデル: allenai/tulu-2-13b
- 評価ベンチマーク: factuality (MMLU), reasoning (GSM8k, Big Bench Hard), truthfulness (TruthfulQA), coding (HumanEval+, MBPP+), safety (ToxiGen, XSTest), instruction following (AlpacaEval 1 and 2, IFEval)
- データの比較
- DPOで以下のデータセットで学習。ヒューマンアノテーション: HH-RLHF, HelpSteer, Chatbot Arena 2023 and 2024, AlpacaFarm Human, PRM800k, Webスクレイピング: SHP-2, StackExchange, 合成データ: UltraFeedback, Nectar, Orca, Capybara, AlpacaFarm GPT-4。
- これらのデータセットでは、truthfulness, instruction followingのカテゴリで効果があったが、factualityにおいてはあまり効果がなかった。また、Chatbot Arenaはsafetyの低下につながった(ボランティアが有害な応答を好んでいるとの仮説)。
- 合成データの方がパフォーマンスが良い傾向。また、単一スコアのデータセットよりも複数の側面でのスコアリングを(平均値として)利用できるデータセットの方が優れていた(それが当てはまるデータセットはHelpSteerとUltraFeedback)。
- 学習アルゴリズムの比較 (DPO vs PPO)
- すべてのデータセットにおいて、PPOの方が優れた結果になった。特にreasoning, coding, safetyが良い結果に。またPPOはreasoningやMathにおいて、CoTを行う可能性がDPOより高い。
- PPOにおける報酬モデルの比較
- 報酬モデルを学習するデータセットのスケールアップ、モデルパラメータのスケールアップは報酬モデル自体のパフォーマンス向上につながるがそれを使用してPPOを実行してダウンストリームタスクで評価すると改善はわずかであった。
- ポリシートレーニングプロンプトの比較
- (ダウンストリームの)ターゲットを絞ったプロンプトかつ報酬モデルの学習に使用されたプロンプトではダウンストリームのパフォーマンスを改善できる。一方で全体的なパフォーマンスを改善するために幅広いプロンプトを用意するとパフォーマンスは改善しなかった。
評価とAblation Study
- 実験からPreferenceベースのレシピとして、高品質の合成Preferenceデータセット、PPO、大規模な報酬モデルを使用して学習する。さらに特定のドメインに焦点をあてたい場合は、ポリシートレーニング用にドメイン固有のプロンプトを追加で収集する。

Demystifying Domain-adaptive Post-training for Financial LLMs
問題意識
- ドメイン適応型の事後学習は医療や金融などの専門分野において有望なアプローチであるが、さまざまなデータ、モデルを考慮する必要もあり、最適な戦略は確立されていない(もしくは情報が公開されていない)。この課題に対処するために金融分野において体系的な調査を行った。
本論文のアプローチ
- 金融特化型の事後学習フレームワーク、FINDAP
- FinCap(コア機能)
- 金融専門家へのヒアリングから金融特化LLMに必要なコア機能を定義。1. ドメイン固有の概念を持っている(金融の文脈と一般的な概念を持ち合わせている)。2. ドメイン固有のタスクが解ける。金融では株価変動を検出できるなど。3. リーズニング能力。金融分野では財務報告書の分析や主要な財務指標を計残するために数学的な推論能力が求められる。4. 指示追従とチャット能力。タスクは指示や会話の中で提示されることが多いため。
- FinRec(トレーニングレシピ)
- モデル、データの観点で構成される。
- モデルはLlama-3-8B-Instructを使用。従来、継続事前学習、指示チューニング、嗜好アライメントがとられるが、アブレーションから継続事前学習と指示チューニングを同時に行った(指示チューニングデータを含めて継続事前学習)。また、この段階ではリーズニング能力が低く、CFA試験など難しい問題を解くタスクには弱かった。ここを強化するために嗜好アライメント(DPO)を実行した。
- 専門ドメインと一般ドメイン、両者の混合データをアブレーションした結果、継続事前学習と指示チューニングでは混合データの使用が破滅的忘却を最も抑えられ、ドメイン固有の能力を獲得できる結果であった(継続事前学習データをダウンサンプリングして指示チューニングと混合)。
- FinTrain
- 70の金融ウェブサイトやCFA試験教材など12のトピックの書籍など多様なデータを収集し、フィルタリング。継続事前学習用に8Bトークンのデータを確保。一般、金融ドメイン双方の指示データを3M収集。嗜好アライメントのデータはCFA試験教材を中心に32kで構成。
- FinEval
- 一般ドメインとドメイン固有を含む35のタスクで構成される広範なベンチマークを構成。
評価とAblation Study
- 先行研究で提示された金融特化のモデル、OSSモデル、GPT-4oとの比較でSOTAの結果となった。
- LoRAでは十分な結果が得られなかった。
- 異なるモデルファミリーでは未検証。

Reward-aware Preference Optimization: A Unified Mathematical Framework for Model Alignment
問題意識
- Preference(嗜好)最適化アルゴリズムが多様化しており、どれがいいのか、暗黙的報酬モデルと明示的報酬モデル(例:DPO vs RLHF)、プロンプトごとのサンプル回答数、複数回のイテレーションなど実験設定に関する有効性を理解するのが複雑な状況。
- DPO、IPO、SimPO、オンラインRLOOなど、LLMアライメントにおける一般的なアプローチを統合するフレームワークである報酬を考慮した選好最適化(RPO)を通じて最適なアライメントレシピを検討する。
本論文のアプローチ
- DPOのアップグレード版の手法であるRPO(Chosen, Rejectと定性的な報酬シグナルを使うDPOとは異なり、RMで評価した定量的な報酬スコアを報酬シグナルに使う)を通じて、暗黙的RMと明示的RM、オンラインアルゴリズムとオフラインアルゴリズム、ペアレスポンスとマルチレスポンスなど、アライメントにおける様々な設計選択の影響を分離して実験。
- 人間のラベリングはコストがかかるため、Nemotron-4-340B-RMをRMによるジャッジを採用。
- データセット: Preferenceデータセットの構築には、SFTデータセットの構築に使用したプロンプトとは独立120kのlmsys-1Mプロンプトを使用。各プロンプトはSFTモデルから複数の応答がサンプリングされ、Ground-Truth RM(Nemotron-4-340B-RM)を用いてアノテーションが付与される。そして、最も高い報酬を得た応答をChosen応答として、ランダムに選んだ応答をReject応答とした。
- 評価方法: GTジャッジの選好を最適化することに焦点を当てているため、評価指標として予測報酬を選択。評価プロンプトは3セット用意し、ハイパーパラメータ調整とチェックポイント選択のための1024のlmsys検証プロンプト、分布内評価のための1024のlmsysテストプロンプト、分布外評価のための805のalpacaevalプロンプト。各プロンプトセットについて、学習済みモデルから応答を生成し、RMを用いて報酬をアノテーションし、最終的な指標(SFTチェックポイントに対する平均報酬と平均勝率の比較、およびそれらの95%信頼区間)を計算する。事前検証でMT-Benchなどの既存ベンチマークではアライメントの効果を適切に調査できなかった。
評価とAblation Study
- ペアレスポンス(k=2)の設定では、オフライン手法のDPO、RPO-bwd、SimPOはKTOとRPO-sqlooよりも一貫して優れたパフォーマンスであった。
- 実験設定ではオフラインでレスポンス数を増やすこと(マルチレスポンス)での顕著な改善は見られなかった。
- オンラインRPO-bwdはオンラインRPO-sqloo(RLOO)よりも大幅に優れたパフォーマンスで学習も安定していた。
- オンライン vs オフラインはオンラインの方が優れた結果になった。一方でオンライン学習の品質はRMの品質に大きく依存し、強力なRMにアクセスできない状況ではオフラインの方が競争力があるケースも存在する(人間がアノテーションしたPreferenceデータセットを用いて単純に学習させたRMを使うだけではうまくいかない可能性が高い)。
- 反復の効果: 反復はアライメントに効果があり、オンラインとオフラインの差も反復を重ねるごとに縮まる傾向があった(オンラインは参照モデルを更新するだけ、オフラインはデータセットを再構築する必要がある)。十分な人的アノテーションリソースが利用できる場合は、各反復で新しいPreferenceデータセットを構築すると良い(MetaのLlama3アライメントレシピのように)。その際はオフラインRPO-bwdをお勧めする。

ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models
問題意識
- RLがモデルのリーズニング能力を真に拡張するのか、それともベースモデルがすでに持っている解のサンプリング効率を最適化するだけなのか、また、RLを継続的にスケールアップすることで確実に推論性能が向上するのかどうかについては依然として議論の余地がある。
- 長期にわたるRL(ProRL)学習によって、広範なサンプリング下でもベースモデルではアクセスできない新たなリーズニング戦略を発見できることを示すことで従来の仮説に異議を唱える。
本論文のアプローチ
- ベースモデルはDeepSeek-R1-Distill-Qwen-1.5B
- GRPOをベースにDAPOの分離クリッピングの導入やKL正則化と定期的な参照ポリシーのハードリセットを導入。
- クリッピングのハイパーパラメータはε low = 0.2, ε high = 0.4。簡単すぎる or 難しすぎるプロンプトを動的にフィルタリング。応答の最大長は8096 (最後の200ステップは16k)、サンプリング温度=1.2。BS=256, ミニバッチサイズは64 (ロールアウトステップ毎に4回勾配更新)、一定のAdamWで2e-5。
- 学習時間はH100で16k GPUs hour。
- 数学 (DeepScaleR)、コード (Eurus-2-RL)、STEM (SCP-116K)、論理パズル (Reasoning Gym)、指示追従 (Llama-Nemotron)のタスクで構成された136kのデータセット。
評価とAblation Study
- ベースになっているDeepSeek-R1-Distill-Qwen-1.5BやDeepScaleR-1.5Bよりも優れたベンチマーク結果。数学、コードどちらかだけではなく、双方でパフォーマンスが改善。
- ベースモデルが得意なドメインの改善幅は小さい or マイナス。不得意なドメインが強くなる傾向。
- 簡単なタスクは早期に能力を獲得して飽和、難しいタスクはトレーニングを長期化することで継続的に改善した。
- 分布外タスクでも大幅な改善が見られた。

DAPO: An Open-Source LLM Reinforcement Learning System at Scale
問題意識
- 最先端のLLMの重要な技術詳細 (主に強化学習) は非公開で依然としてコミュニティは再現に苦労している。本研究では最先端の結果を達成する強化学習手法をオープンソースで公開する。
本論文のアプローチ
- long-CoTのReasoningモデルの学習中はモデルの分布が初期モデルから大きく逸脱する可能性があるため、KL項の除外を提案。
- 報酬モデルは報酬ハッキングに悩まされるため使用せず、ルールベースの報酬システムを採用する。
- Clip-Higher: ナイーブにPPOとGRPOを適用するとエントロピー崩壊 (学習が進むにつれポリシーのエントロピーが急激に減少) に遭遇する。PPOのクリッピングを拡張し、上限と下限のクリッピング幅を分離する (上側のクリップがポリシーの探索を制限していることを特定) 。
- Dynamic Sampling: バッチ内が全て正解 or 不正解のプロンプトでは勾配が0になり、学習効率が低下する。正解率が0または1のプロンプトを除外し、効果的な勾配が得られるプロンプトのみでバッチを構成する。サンプリングコストは増加するが、全体の学習ステップ数が減り、収束が速くなる。
- Token-Level Policy Gradient Loss: GRPOはサンプルレベルで損失を計算するが、これは長い応答内のトークンの損失寄与が不釣り合いに低くなる可能性がある (高品質のサンプルの場合は学習が阻害、逆の場合は効果的なペナルティにならない場合も) 。こういった背景からトークンレベルを採用した (長いサンプルは短いサンプルよりも勾配更新に大きな影響を与える可能性はある) 。
- Overlong Reward Shaping: RLの学習では通常、生成するサンプルの最大長を設定し、それを超える場合は切り捨てられる。一般的にこういったサンプルにはペナルティが与えられるが、それが学習プロセスでノイズになる可能性がある。これに対処するために切り捨てられたサンプルの損失にマスクを適用し、長さを考慮したペナルティメカニズムを導入。
- 数学的なタスクにフォーカスし、DAPO-Math-17Kデータセットを構築。モデルはQwen-32B BaseでVerlで学習を行い、GRPOをベースラインに用いた。生成するサンプルに期待されるトークン最大長を16,384トークンに設定し、追加の4,096トークンをペナルティとして割り当てる (最大長20,480トークン)。クリッピングは上限 (0.28) 、下限 (0.2) 。
評価とAblation Study
- AIME 2024をベンチマークに実験したところ、DeepSeek-R1アプローチに比べ、提案手法は学習ステップが50%で50% (avg@32) の精度を達成した。
- Token-Level Policy Gradient Lossは学習が安定し、生成長も健全に伸びる。
- Dynamic Samplingはフィルタリングによりサンプリング数は増えるが必要な学習ステップ数が減り、全体的な学習時間へは影響しない。パフォーマンスも向上。

Process Reinforcement through Implicit Rewards
問題意識
- 複雑で他段階の推論が必要なタスクでは結果ベースのスパースな報酬よりもプロセス報酬の方が効果的と言われている。一方でプロセス報酬モデル (PRM)はプロセスラベルのコストが高く、報酬ハッキングに対して脆弱という課題からほとんど実現していない。
- これらの課題に対処するため、ポリシーのロールアウトと結果ラベルのみという暗黙的なポリシー報酬を通じてオンラインでPRMを更新可能にするPRIME (Process Reinforcement through IMplicit rEwards)を提案。既存のアプローチで必要とされる専用の報酬モデルの学習が省けるため、開発工数を大幅に削減できる。
本論文のアプローチ
- 明示的な報酬モデルを導入せず、SFTやベースモデルから初期化されたオンラインで更新される暗黙的PRMを導入。暗黙的PRMは結果ラベルのみで学習させ、報酬は「学習中の報酬モデルと参照モデル (SFTed or Baseモデル)の確率比の対数」と定義し、トークンごとに計算。暗黙的PRMはクロスエントロピー損失で更新。
- アドバンテージ関数には単純だが安定した結果が得られるMC推定量を選択し、RLOOをベースラインとした。実験には成果報酬と結果報酬の組み合わせを使用。
- 安定したポリシー更新のため、PPOクリップサロゲートロスを採用。
- 中レベルの難易度のプロンプトをオンラインで保持するオンラインプロンプトフィルタリングを導入。
- 実験は数学とコーディングにフォーカス。SFT後のモデルに対してVerlを使用して実験。評価ベンチマークはAIME 2024, AMC, MATH-500, Minerva Math, OlympiadBench, LeetCode, LiveCodeBench
評価とAblation Study
- 結果報酬のみの場合よりも同ステップ数で一般的に優れた結果となった。
- 事前に学習したPRMを使用するとパフォーマンスが悪化。ポリシーモデルとPRMを同じ場合、分布シフトが軽減されるとの考察。
- オンライン vs オフライン。オフラインは学習過程で徐々に精度が劣化する。
- ポリシー参照 vs SFTed参照はどちらも似たような結果となった。
- 暗黙的なPRMは学習中に同時に更新されるため、各ロールアウト段階でポリシーモデルの前にPRMを更新し、更新されたPRMを用いてプロセス報酬を再計算できる (これをダブルフォワードと呼ぶ)。シングル vs ダブルではダブルの方が若干良い傾向があるものの、その差はごく僅か。
- REINFORCE、GRPO、PPOなどの他のRLアルゴリズムにも応用できるため、比較を行ったところ、PPOのみ劣化。REINFORCE、GRPOは改善したが、RLOOが最もパフォーマンスが良かった。
- SFTedではなく、Baseモデルからの強化学習。SFTedよりも早く収束した。大きなモデルはより恩恵を受けやすい。一方で速い収束がさらなる性能向上を妨げている可能性があり、これは今後の研究課題。

リーズニング関連の論文 3本
The Invisible Leash: Why RLVR May Not Escape Its Origin
RLVRに関する考察。
検証可能な報酬による強化学習(RLVR)はベースモデルの確率が0の解をサンプリングできない点で新たな知識を獲得していない。また、RLVRは (サンプリング効率を高め) 精度を高める (一貫してpass@1が改善) が、解の探索領域を狭め、過小評価された解を見逃す可能性もある。
Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens
CoTに関する分析。
CoTリーズニングでは正しそうな推論ステップの後に結論を間違えることがある。先行研究ではCoTは表面的とも指摘されている。CoTはデータ分布が学習データに近い場合は効果的に機能するが、中程度の分布シフトでも脆弱になることがわかった。CoT推論は一見、構造化された推論に見えるが学習データの記憶、補完されたパターンからの幻想で人間の論理的推論とは異なるとの見解。
Scalpel vs. Hammer: GRPO Amplifies Existing Capabilities, SFT Replaces Them
RLとSFTの分析。
GRPOとSFTをできるだけ条件を揃えて分析。SFTは分布外での精度を犠牲にして分布内でより顕著な改善が得られた。一方、GRPO では分布外の精度がより保全されるのと引き換えに精度の向上は控えめ。チェックポイントでもSFTの方がはるかに更新が大きかった。SFTとGRPOではクエリとキーの更新が大きいことは共通しているが、SFTでは中間のMLP (先行研究から記憶や事実の関連性に重要) でも大きかった。MLPのパラメータをフリーズして追加実験したところ、パフォーマンスは劣化した (SFTは古い記憶を新しい記憶に置き換えているのではとの考察)。