🦁
General-Reasoner:Advancing LLM Reasoning Across ALL Domains
1. どんなもの?
Deepseek-R1は数学には強いが、日常的な推論には対応が難しく、報酬はルールベースである。
本研究では、多分野のQAデータを用いてルールに依存しない報酬モデルを学習し、GRPOでLLMを強化する手法「General-Reasoner」を提案する。
2. 先行研究と比べてどこがすごい?
DeepSeekは数学に特化した性能が高く、「答えが明確に存在する」タスクではルールベースの検証器によって高い精度があった。
しかし、汎用的な推論タスクにおいては性能に課題がある。
そこで「General-Reasoner」は、数学以外の多様なデータセットを作成し、検証器もルールベースからモデルベースに切り替えることで、汎用的な推論性能を向上させた。
3. 技術や手法のキモはどこ?
- データセット(高品質)
- 23万件の質問データセットのドメイン分布
- WebInstructの取得方法を参考にしてWEB上の人間が書いたデータを取得
- Gemini-1.5-proでQAデータ自動生成
- 元のデータの答えと一致しているか確認し一致していなければ破棄する。(ハルシネーション抑制のため)
- 検証機
- Qwen2.5-Math-1.5Bをベース
- Gemini-2.0-Flash を使って短い解答と思考の過程を出力させ、それを検証機のデータセットとする(COTファインチューニング)
- 学習
- ベースのLLM(Qwen2.5-7B および Qwen2.5-14B)から強化学習(GRPO)
- 報酬設計
- 解答抽出に失敗した場合、0.5(ルールベース?)
- 解答検証に合格した場合、基本報酬は1 。(ただし解答トークン数の差分が大きいほどペナルティがある)(モデルベース?)
- ペナルティの計算式
- ペナルティ = -0.05 × min(10, |正解の長さ − 回答の長さ|)
4. どうやって有効だと検証した?
MMLU-Pro,SuperGPQA,GPQA,数学関連タスクにおいて全体的にスコアが向上した。
5. 議論はある?
学習に用いられたWebInstruct-verifiedの23万問のうち、約33.9%が数学、23.7%が物理、10.4%が化学と、数学系だけで全体の7割近くを占めている。
一方で、歴史(2.7%)、法学(0.2%)、哲学(0.22%)といった人文・社会系の割合は非常に少ない。
多様なドメインに対応するとしているが、実際はデータ分布に偏りがあり、非数学系の検証が十分にされていない可能性がある。
Discussion