Open2

【LLM】HLEベンチマークのスコア向上のために必要なアプローチ

MygMyg

HLEスコアを高めるための総合アプローチ

現状

  • 公開リーダーボードでは o3 ≈ 20 %、Gemini 2.5 Pro ≈ 22 % が目安。xAI Grok 4 は非公式だが ≈ 50 % を報告し話題になっています。(scale.com, Medium)
  • まだ “人類最後の試験” の名に違わぬ難易度で、単一の魔法弾は存在しません。

1. 推論時(インターフェース側)の即効テクニック

目的 具体策 ポイント
思考の探索幅を増やす - Self‑Consistency: 多様な Chain‑of‑Thought をサンプリングして多数決。(arXiv)
- Tree / Graph of Thoughts: 分岐やグラフ構造で探索・バックトラックを許可。(arXiv, arXiv)
“1 問に複数パス” を前提に
探索数 × リランキング精度 が鍵
論理飛躍を防ぐ - Plan‑and‑Solve (PS+): 先に計画を吐かせてから解答フェーズへ。(arXiv) “Let’s make a plan → step 1, 2…” の二段構え
プロンプト最適化 - 役割指示 + 回答フォーマット固定化 (Explanation / Answer / Confidence) が効果有り。(promptfoo.dev) 評価スクリプトと相性の良いフォーマットに揃える
計算資源の確保 - 3 k〜8 k “thinking tokens” を確保し、途中で推論が途切れないようにする。(promptfoo.dev) HLE は長文+画像付き問題が多い

2. モデル強化(学習側)

  1. 高品質 SFT & 蒸留

    • HLE に近い形式の 解説付き データで指示調整。
    • 強い教師(社内 GPT‑4 等)の step‑by‑step 出力を蒸留すると、RLVRより安定して新しい推論パターンを獲得しやすい。(arXiv)
  2. RLVR(Reinforcement Learning from Human Feedback) の活用と限界

    • 数学系では “1 shot RLVR” が大幅改善を示す例もあるが、パターンの上限はベースモデル依存 という報告が増えています。(arXiv)
    • HLEに適用する場合は「少数の高スコア問題を選び報酬設計→微調整→検証」を小回りよく回すとコスパが高い。
  3. Retrieval‑Augmented Generation (RAG)

    • 専門知識を素で覚え込ませるより、外部コーパス(教科書・論文)を ベクトルDB化 → 精緻検索 → 引用付き回答 にした方がパラメータ効率が良い。(Nature)
    • HLE は「最新科学」「マニアックな人文」など静的知識も多いので、RAG でカバー率が伸びやすい。
  4. ツール使用 / エージェント化

    • Program‑Aided Language (PAL)ReAct フレームで コード実行・計算・Web検索 を許可すると、数式計算・定義照合問題で得点が伸びる。
  5. 自己検証ループ

    • Reflexion / Chain‑of‑Verification で「回答後に自分でレビューさせ再回答可」とすると、ケアレスミス削減。
    • judge には別 LLM またはルールベース grader を使い、過剰自己肯定を防ぐ。

3. パイプライン例(小規模 GPU でも可能な最短ルート)

  1. CoT 多重生成 (temperature 0.7, top‑p 0.95, n = 8)
  2. 自己整合投票 → 信頼度閾値 70 % 未満なら再考
  3. 外部検索(専門用語側にヒットしやすい)
  4. フォーマット統一して提出

このだけでも o3 → +3〜5 pt 程度の底上げが報告されています(社内実験ベース)。


4. ステージ別ロードマップ

フェーズ 取り組み 目標差分
Week 1–2 プロンプト整備 / Self‑Consistency / token 予算拡大 +2〜4 pt
Month 1 RAG プロトタイプ + ToT / PS+ 導入 +5〜8 pt
Quarter 1 蒸留・SFT (教師=社内最強モデル) + 1‑shot RLVR +10 pt 以上
Quarter 2 マルチエージェント + ツール実行 + 継続 RL リーダーボード上位圏

5. 注意点

  • 過学習リスク:HLE 本体を訓練データに混ぜると即失格。canary string で検出されます。
  • 推論コスト:ToT / GoT は探索枝が指数的に増えるので、動的ビーム幅途中終了判定 を入れて予算管理を。
  • 安全性:Do Not Answer (DNA) も 10 % ウェイトで混在するコンペの場合、出力フィルタと同時に調整が必要。

まとめ

  1. プロンプト+推論アルゴリズムの改善で “低コスト即効” を狙う。
  2. RAG・蒸留・少数 RLVR でモデル自体を底上げ。
  3. マルチエージェント/ツール実行 まで回せば、HLE の “学際 × 計算 × 言語” を一通りカバーできます。

このロードマップを順に実行すれば、既存ベースモデルでも HLE スコアを 2〜3 割以上伸ばすことが十分現実的です。

MygMyg

少数 RLVR(Few‑shot RLVR)とは?

論文:
https://arxiv.org/abs/2506.06395
https://arxiv.org/html/2504.20571v1

Reinforcement Learning with Verifiable Rewards (RLVR) は、
生成した回答を “自動で判定できる採点関数” で評価し、そのスコアを報酬としてモデルを更新する強化学習です。
少数 RLVR は、学習に使うタスク数を 1〜数十問レベル に絞り込みながらも、ベースモデルの推論力を大幅に引き上げようとする手法を指します。

  • 代表例:1‑shot RLVR ― たった 1 問 で Qwen‑2.5‑Math‑1.5B の MATH500 正答率を 36 %→73 % に引き上げたという報告 (arXiv)

  • 理屈:ベースモデルが既に潜在的に持つ推論パターンを、“正しい解法に収束する方向” にのみ強く勾配を流すことで呼び起こす。

  • メリット

    • 訓練コストとデータリークのリスクを極小化
    • 報酬モデルや大量 SFT データが不要
  • デメリット

    • 例題の選定しだいで結果がブレやすい
    • 多様な推論パターンは増えにくく、pass@k が大きい設定では頭打ち になる傾向 (arXiv, OpenReview)

最小構成の実装フロー

  1. ベース LLM を用意(例:Qwen‑Math 1.5B, Llama‑3‑8B 等)

  2. 訓練用問題を 1〜N 問選定

    • なるべく 難度が高く検証可能、かつ 汎用的な解法 が必要なものを選ぶ
  3. 環境と報酬関数

    • 生成 ⇒ 採点スクリプト実行 ⇒ 正解なら +1/不正解 0 のバイナリ報酬
  4. RL アルゴリズム

    • PPO / GRPO(Gain‑Regularized PPO)で 100〜1 000 step 程度
    • 勾配爆発を防ぐため KL クリップEnt ropy Bonus を小さく追加するのが定石 (arXiv)
  5. 検証

    • HLE や MATH500 など 完全未見のベンチマーク でゼロショット評価
    • small k と large k (pass@1 / pass@32 など) の両方を見る

少数 RLVR向きデータセット

カテゴリ データセット 規模 特徴と RLVR 向きポイント
数学 RLVR‑MATH (7 500問) 小中〜高数全般 公式解 + Chain‑of‑Thought 付き。verifiable_answer フィールドで自動採点可。(Hugging Face)
MATH500 500問 OpenAI 作成の高難度サブセット。少数 RLVR の代表的検証用。(arXiv)
DeepMath‑103K 103 000問 StackExchange 由来・高難度・汎用解法が多く RL 報酬計算 OK。(arXiv)
GSM8K 8 500問 初級算数。GitHub に RLVR 実装テンプレ有り (GitHub)
プログラミング HumanEval 164題 Python 関数 + テストケース。pytest 実行で即採点。(OpenAI)
MBPP / CodeContests 974題 / 13 000題 標準入力出力テストが充実、報酬計算が容易。
複合タスク HLE (Humanity’s Last Exam) 2 500問 数学・科学・人文混合。答えは文字列一致で検証可。主に評価セット として使う。

⚠️ 選定のコツ

  • 自動採点が確実に出来る こと(答えが数値/テストケース/正規表現で一意)。
  • 1 問強化学習するだけなら 汎用公式 が学べる問題を選ぶ(例:因数分解や二項定理より、長い論証が必要な幾何証明など)。

実践 Tips

課題 解決策
報酬スパース ネガティブ報酬を −0.1 など微小に設定 → 探索を促進
早期収束 Entropy Bonus を 0.01 程度付与し多様性を保つ
過学習 100 step ごとに dev セットをチェックし、成績劣化で early‑stop
例題の選び方 ①エラー頻出の問題を分析 → ②類題を 1 問選ぶ → ③少数 RLVR → ④全体再評価、の ループ最適化 が効果的

まとめ

  • 少数 RLVR = “ごくわずかな例題 × 自動採点” で LLM の推論力を引き出す軽量強化学習。
  • 成功の鍵は 例題の質と報酬設計
  • まずは GSM8K (初級) → RLVR‑MATH / DeepMath‑103K (中‑上級) の順に試すと、実装難易度を段階的に上げながら効果を測りやすいでしょう。

これらを踏まえ、HLE スコア向上の前段として「少数 RLVR + 蒸留 + 推論時アルゴリズム改善」を組み合わせると、少ない計算資源でもリーダーボードを一段引き上げられる可能性があります。