【LLM】HLEベンチマークのスコア向上のために必要なアプローチ
HLEスコアを高めるための総合アプローチ
現状
1. 推論時(インターフェース側)の即効テクニック
| 目的 | 具体策 | ポイント |
|---|---|---|
| 思考の探索幅を増やす | - Self‑Consistency: 多様な Chain‑of‑Thought をサンプリングして多数決。(arXiv) - Tree / Graph of Thoughts: 分岐やグラフ構造で探索・バックトラックを許可。(arXiv, arXiv) |
“1 問に複数パス” を前提に 探索数 × リランキング精度 が鍵 |
| 論理飛躍を防ぐ | - Plan‑and‑Solve (PS+): 先に計画を吐かせてから解答フェーズへ。(arXiv) | “Let’s make a plan → step 1, 2…” の二段構え |
| プロンプト最適化 | - 役割指示 + 回答フォーマット固定化 (Explanation / Answer / Confidence) が効果有り。(promptfoo.dev) | 評価スクリプトと相性の良いフォーマットに揃える |
| 計算資源の確保 | - 3 k〜8 k “thinking tokens” を確保し、途中で推論が途切れないようにする。(promptfoo.dev) | HLE は長文+画像付き問題が多い |
2. モデル強化(学習側)
-
高品質 SFT & 蒸留
- HLE に近い形式の 解説付き データで指示調整。
- 強い教師(社内 GPT‑4 等)の step‑by‑step 出力を蒸留すると、RLVRより安定して新しい推論パターンを獲得しやすい。(arXiv)
-
RLVR(Reinforcement Learning from Human Feedback) の活用と限界
- 数学系では “1 shot RLVR” が大幅改善を示す例もあるが、パターンの上限はベースモデル依存 という報告が増えています。(arXiv)
- HLEに適用する場合は「少数の高スコア問題を選び報酬設計→微調整→検証」を小回りよく回すとコスパが高い。
-
Retrieval‑Augmented Generation (RAG)
- 専門知識を素で覚え込ませるより、外部コーパス(教科書・論文)を ベクトルDB化 → 精緻検索 → 引用付き回答 にした方がパラメータ効率が良い。(Nature)
- HLE は「最新科学」「マニアックな人文」など静的知識も多いので、RAG でカバー率が伸びやすい。
-
ツール使用 / エージェント化
- Program‑Aided Language (PAL) や ReAct フレームで コード実行・計算・Web検索 を許可すると、数式計算・定義照合問題で得点が伸びる。
-
自己検証ループ
- Reflexion / Chain‑of‑Verification で「回答後に自分でレビューさせ再回答可」とすると、ケアレスミス削減。
- judge には別 LLM またはルールベース grader を使い、過剰自己肯定を防ぐ。
3. パイプライン例(小規模 GPU でも可能な最短ルート)
- CoT 多重生成 (temperature 0.7, top‑p 0.95, n = 8)
- 自己整合投票 → 信頼度閾値 70 % 未満なら再考
- 外部検索(専門用語側にヒットしやすい)
- フォーマット統一して提出
このだけでも o3 → +3〜5 pt 程度の底上げが報告されています(社内実験ベース)。
4. ステージ別ロードマップ
| フェーズ | 取り組み | 目標差分 |
|---|---|---|
| Week 1–2 | プロンプト整備 / Self‑Consistency / token 予算拡大 | +2〜4 pt |
| Month 1 | RAG プロトタイプ + ToT / PS+ 導入 | +5〜8 pt |
| Quarter 1 | 蒸留・SFT (教師=社内最強モデル) + 1‑shot RLVR | +10 pt 以上 |
| Quarter 2 | マルチエージェント + ツール実行 + 継続 RL | リーダーボード上位圏 |
5. 注意点
-
過学習リスク:HLE 本体を訓練データに混ぜると即失格。
canary stringで検出されます。 - 推論コスト:ToT / GoT は探索枝が指数的に増えるので、動的ビーム幅 と 途中終了判定 を入れて予算管理を。
- 安全性:Do Not Answer (DNA) も 10 % ウェイトで混在するコンペの場合、出力フィルタと同時に調整が必要。
まとめ
- プロンプト+推論アルゴリズムの改善で “低コスト即効” を狙う。
- RAG・蒸留・少数 RLVR でモデル自体を底上げ。
- マルチエージェント/ツール実行 まで回せば、HLE の “学際 × 計算 × 言語” を一通りカバーできます。
このロードマップを順に実行すれば、既存ベースモデルでも HLE スコアを 2〜3 割以上伸ばすことが十分現実的です。
少数 RLVR(Few‑shot RLVR)とは?
論文:
Reinforcement Learning with Verifiable Rewards (RLVR) は、
生成した回答を “自動で判定できる採点関数” で評価し、そのスコアを報酬としてモデルを更新する強化学習です。
少数 RLVR は、学習に使うタスク数を 1〜数十問レベル に絞り込みながらも、ベースモデルの推論力を大幅に引き上げようとする手法を指します。
-
代表例:1‑shot RLVR ― たった 1 問 で Qwen‑2.5‑Math‑1.5B の MATH500 正答率を 36 %→73 % に引き上げたという報告 (arXiv)
-
理屈:ベースモデルが既に潜在的に持つ推論パターンを、“正しい解法に収束する方向” にのみ強く勾配を流すことで呼び起こす。
-
メリット
- 訓練コストとデータリークのリスクを極小化
- 報酬モデルや大量 SFT データが不要
-
デメリット
- 例題の選定しだいで結果がブレやすい
- 多様な推論パターンは増えにくく、pass@k が大きい設定では頭打ち になる傾向 (arXiv, OpenReview)
最小構成の実装フロー
-
ベース LLM を用意(例:Qwen‑Math 1.5B, Llama‑3‑8B 等)
-
訓練用問題を 1〜N 問選定
- なるべく 難度が高く検証可能、かつ 汎用的な解法 が必要なものを選ぶ
-
環境と報酬関数
- 生成 ⇒ 採点スクリプト実行 ⇒ 正解なら +1/不正解 0 のバイナリ報酬
-
RL アルゴリズム
- PPO / GRPO(Gain‑Regularized PPO)で 100〜1 000 step 程度
- 勾配爆発を防ぐため KL クリップ と Ent ropy Bonus を小さく追加するのが定石 (arXiv)
-
検証
- HLE や MATH500 など 完全未見のベンチマーク でゼロショット評価
- small k と large k (pass@1 / pass@32 など) の両方を見る
少数 RLVR向きデータセット
| カテゴリ | データセット | 規模 | 特徴と RLVR 向きポイント |
|---|---|---|---|
| 数学 | RLVR‑MATH (7 500問) | 小中〜高数全般 | 公式解 + Chain‑of‑Thought 付き。verifiable_answer フィールドで自動採点可。(Hugging Face) |
| MATH500 | 500問 | OpenAI 作成の高難度サブセット。少数 RLVR の代表的検証用。(arXiv) | |
| DeepMath‑103K | 103 000問 | StackExchange 由来・高難度・汎用解法が多く RL 報酬計算 OK。(arXiv) | |
| GSM8K | 8 500問 | 初級算数。GitHub に RLVR 実装テンプレ有り (GitHub) | |
| プログラミング | HumanEval | 164題 | Python 関数 + テストケース。pytest 実行で即採点。(OpenAI) |
| MBPP / CodeContests | 974題 / 13 000題 | 標準入力出力テストが充実、報酬計算が容易。 | |
| 複合タスク | HLE (Humanity’s Last Exam) | 2 500問 | 数学・科学・人文混合。答えは文字列一致で検証可。主に評価セット として使う。 |
⚠️ 選定のコツ
- 自動採点が確実に出来る こと(答えが数値/テストケース/正規表現で一意)。
- 1 問強化学習するだけなら 汎用公式 が学べる問題を選ぶ(例:因数分解や二項定理より、長い論証が必要な幾何証明など)。
実践 Tips
| 課題 | 解決策 |
|---|---|
| 報酬スパース | ネガティブ報酬を −0.1 など微小に設定 → 探索を促進 |
| 早期収束 | Entropy Bonus を 0.01 程度付与し多様性を保つ |
| 過学習 | 100 step ごとに dev セットをチェックし、成績劣化で early‑stop |
| 例題の選び方 | ①エラー頻出の問題を分析 → ②類題を 1 問選ぶ → ③少数 RLVR → ④全体再評価、の ループ最適化 が効果的 |
まとめ
- 少数 RLVR = “ごくわずかな例題 × 自動採点” で LLM の推論力を引き出す軽量強化学習。
- 成功の鍵は 例題の質と報酬設計。
- まずは GSM8K (初級) → RLVR‑MATH / DeepMath‑103K (中‑上級) の順に試すと、実装難易度を段階的に上げながら効果を測りやすいでしょう。
これらを踏まえ、HLE スコア向上の前段として「少数 RLVR + 蒸留 + 推論時アルゴリズム改善」を組み合わせると、少ない計算資源でもリーダーボードを一段引き上げられる可能性があります。