🦁

General-Reasoner:Advancing LLM Reasoning Across ALL Domains

に公開

https://github.com/TIGER-AI-Lab/General-Reasoner/blob/main/General_Reasoner.pdf

1. どんなもの?

Deepseek-R1は数学には強いが、日常的な推論には対応が難しく、報酬はルールベースである。

本研究では、多分野のQAデータを用いてルールに依存しない報酬モデルを学習し、GRPOでLLMを強化する手法「General-Reasoner」を提案する。


2. 先行研究と比べてどこがすごい?

DeepSeekは数学に特化した性能が高く、「答えが明確に存在する」タスクではルールベースの検証器によって高い精度があった。

しかし、汎用的な推論タスクにおいては性能に課題がある。

そこで「General-Reasoner」は、数学以外の多様なデータセットを作成し、検証器もルールベースからモデルベースに切り替えることで、汎用的な推論性能を向上させた。


3. 技術や手法のキモはどこ?

  • データセット(高品質)
    • 23万件の質問データセットのドメイン分布
    • WebInstructの取得方法を参考にしてWEB上の人間が書いたデータを取得
    • Gemini-1.5-proでQAデータ自動生成
    • 元のデータの答えと一致しているか確認し一致していなければ破棄する。(ハルシネーション抑制のため)
  • 検証機
    • Qwen2.5-Math-1.5Bをベース
    • Gemini-2.0-Flash を使って短い解答と思考の過程を出力させ、それを検証機のデータセットとする(COTファインチューニング)
  • 学習
    • ベースのLLM(Qwen2.5-7B および Qwen2.5-14B)から強化学習(GRPO)
  • 報酬設計
    • 解答抽出に失敗した場合、0.5(ルールベース?)
    • 解答検証に合格した場合、基本報酬は1 。(ただし解答トークン数の差分が大きいほどペナルティがある)(モデルベース?)
    • ペナルティの計算式
      • ペナルティ = -0.05 × min(10, |正解の長さ − 回答の長さ|)

4. どうやって有効だと検証した?

MMLU-Pro,SuperGPQA,GPQA,数学関連タスクにおいて全体的にスコアが向上した。


5. 議論はある?

学習に用いられたWebInstruct-verifiedの23万問のうち、約33.9%が数学、23.7%が物理、10.4%が化学と、数学系だけで全体の7割近くを占めている。

一方で、歴史(2.7%)、法学(0.2%)、哲学(0.22%)といった人文・社会系の割合は非常に少ない。

多様なドメインに対応するとしているが、実際はデータ分布に偏りがあり、非数学系の検証が十分にされていない可能性がある。


Discussion