Open5ヶ月前にコメント追加2

【LLM】HLEベンチマークのスコア向上のために必要なアプローチ

 HLEスコアを高めるための総合アプローチ現状
公開リーダーボードでは o3 ≈ 20 %、Gemini 2.5 Pro ≈ 22 % が目安。xAI Grok 4 は非公式だが ≈ 50 % を報告し話題になっています。(scale.com, Medium)
まだ “人類最後の試験” の名に違わぬ難易度で、単一の魔法弾は存在しません。

 1. 推論時（インターフェース側）の即効テクニック

目的
具体策
ポイント


思考の探索幅を増やす
- Self‑Consistency: 多様な Chain‑of‑Thought をサンプリングして多数決。(arXiv)
- Tree / Graph of Thoughts: 分岐やグラフ構造で探索・バックトラックを許可。(arXiv, arXiv)
“1 問に複数パス” を前提に
探索数 × リランキング精度 が鍵

論理飛躍を防ぐ
- Plan‑and‑Solve (PS+): 先に計画を吐かせてから解答フェーズへ。(arXiv)
“Let’s make a plan → step 1, 2…” の二段構え

プロンプト最適化
- 役割指示 + 回答フォーマット固定化 (Explanation / Answer / Confidence) が効果有り。(promptfoo.dev)
評価スクリプトと相性の良いフォーマットに揃える

計算資源の確保
- 3 k〜8 k “thinking tokens” を確保し、途中で推論が途切れないようにする。(promptfoo.dev)
HLE は長文＋画像付き問題が多い


 2. モデル強化（学習側）高品質 SFT & 蒸留
HLE に近い形式の 解説付き データで指示調整。
強い教師（社内 GPT‑4 等）の step‑by‑step 出力を蒸留すると、RLVRより安定して新しい推論パターンを獲得しやすい。(arXiv)
RLVR(Reinforcement Learning from Human Feedback) の活用と限界
数学系では “1 shot RLVR” が大幅改善を示す例もあるが、パターンの上限はベースモデル依存 という報告が増えています。(arXiv)
HLEに適用する場合は「少数の高スコア問題を選び報酬設計→微調整→検証」を小回りよく回すとコスパが高い。
Retrieval‑Augmented Generation (RAG)
専門知識を素で覚え込ませるより、外部コーパス（教科書・論文）を ベクトルDB化 → 精緻検索 → 引用付き回答 にした方がパラメータ効率が良い。(Nature)
HLE は「最新科学」「マニアックな人文」など静的知識も多いので、RAG でカバー率が伸びやすい。
ツール使用 / エージェント化

Program‑Aided Language (PAL) や ReAct フレームで コード実行・計算・Web検索 を許可すると、数式計算・定義照合問題で得点が伸びる。
自己検証ループ

Reflexion / Chain‑of‑Verification で「回答後に自分でレビューさせ再回答可」とすると、ケアレスミス削減。
judge には別 LLM またはルールベース grader を使い、過剰自己肯定を防ぐ。

 3. パイプライン例（小規模 GPU でも可能な最短ルート）CoT 多重生成 (temperature 0.7, top‑p 0.95, n = 8)
自己整合投票 → 信頼度閾値 70 % 未満なら再考

外部検索（専門用語側にヒットしやすい）

フォーマット統一して提出
このだけでも o3 → +3〜5 pt 程度の底上げが報告されています（社内実験ベース）。

 4. ステージ別ロードマップ

フェーズ
取り組み
目標差分


Week 1–2
プロンプト整備 / Self‑Consistency / token 予算拡大
+2〜4 pt

Month 1
RAG プロトタイプ + ToT / PS+ 導入
+5〜8 pt

Quarter 1
蒸留・SFT (教師=社内最強モデル) + 1‑shot RLVR
+10 pt 以上

Quarter 2
マルチエージェント + ツール実行 + 継続 RL
リーダーボード上位圏


 5. 注意点
過学習リスク：HLE 本体を訓練データに混ぜると即失格。canary string で検出されます。

推論コスト：ToT / GoT は探索枝が指数的に増えるので、動的ビーム幅 と 途中終了判定 を入れて予算管理を。

安全性：Do Not Answer (DNA) も 10 % ウェイトで混在するコンペの場合、出力フィルタと同時に調整が必要。

 まとめ
プロンプト＋推論アルゴリズムの改善で “低コスト即効” を狙う。

RAG・蒸留・少数 RLVR でモデル自体を底上げ。

マルチエージェント／ツール実行 まで回せば、HLE の “学際 × 計算 × 言語” を一通りカバーできます。
このロードマップを順に実行すれば、既存ベースモデルでも HLE スコアを 2〜3 割以上伸ばすことが十分現実的です。

目的	具体策	ポイント
思考の探索幅を増やす	- Self‑Consistency: 多様な Chain‑of‑Thought をサンプリングして多数決。(arXiv) - Tree / Graph of Thoughts: 分岐やグラフ構造で探索・バックトラックを許可。(arXiv, arXiv)	“1 問に複数パス” を前提に探索数 × リランキング精度が鍵
論理飛躍を防ぐ	- Plan‑and‑Solve (PS+): 先に計画を吐かせてから解答フェーズへ。(arXiv)	“Let’s make a plan → step 1, 2…” の二段構え
プロンプト最適化	- 役割指示 + 回答フォーマット固定化 (Explanation / Answer / Confidence) が効果有り。(promptfoo.dev)	評価スクリプトと相性の良いフォーマットに揃える
計算資源の確保	- 3 k〜8 k “thinking tokens” を確保し、途中で推論が途切れないようにする。(promptfoo.dev)	HLE は長文＋画像付き問題が多い

フェーズ	取り組み	目標差分
Week 1–2	プロンプト整備 / Self‑Consistency / token 予算拡大	+2〜4 pt
Month 1	RAG プロトタイプ + ToT / PS+ 導入	+5〜8 pt
Quarter 1	蒸留・SFT (教師=社内最強モデル) + 1‑shot RLVR	+10 pt 以上
Quarter 2	マルチエージェント + ツール実行 + 継続 RL	リーダーボード上位圏

Myg

 少数 RLVR（Few‑shot RLVR）とは？論文:

https://arxiv.org/abs/2506.06395

https://arxiv.org/html/2504.20571v1
Reinforcement Learning with Verifiable Rewards (RLVR) は、

生成した回答を “自動で判定できる採点関数” で評価し、そのスコアを報酬としてモデルを更新する強化学習です。

少数 RLVR は、学習に使うタスク数を 1〜数十問レベル に絞り込みながらも、ベースモデルの推論力を大幅に引き上げようとする手法を指します。
代表例：1‑shot RLVR ― たった 1 問 で Qwen‑2.5‑Math‑1.5B の MATH500 正答率を 36 %→73 % に引き上げたという報告 (arXiv)
理屈：ベースモデルが既に潜在的に持つ推論パターンを、“正しい解法に収束する方向” にのみ強く勾配を流すことで呼び起こす。
メリット
訓練コストとデータリークのリスクを極小化
報酬モデルや大量 SFT データが不要
デメリット
例題の選定しだいで結果がブレやすい
多様な推論パターンは増えにくく、pass@k が大きい設定では頭打ち になる傾向 (arXiv, OpenReview)

 最小構成の実装フローベース LLM を用意（例：Qwen‑Math 1.5B, Llama‑3‑8B 等）
訓練用問題を 1〜N 問選定
なるべく 難度が高く検証可能、かつ 汎用的な解法 が必要なものを選ぶ
環境と報酬関数
生成 ⇒ 採点スクリプト実行 ⇒ 正解なら +1／不正解 0 のバイナリ報酬
RL アルゴリズム
PPO / GRPO（Gain‑Regularized PPO）で 100〜1 000 step 程度
勾配爆発を防ぐため KL クリップ と Ent ropy Bonus を小さく追加するのが定石 (arXiv)
検証
HLE や MATH500 など 完全未見のベンチマーク でゼロショット評価
small k と large k (pass@1 / pass@32 など) の両方を見る

 少数 RLVR向きデータセット

カテゴリ
データセット
規模
特徴と RLVR 向きポイント


数学
RLVR‑MATH (7 500問)
小中〜高数全般
公式解 + Chain‑of‑Thought 付き。verifiable_answer フィールドで自動採点可。(Hugging Face)


MATH500
500問
OpenAI 作成の高難度サブセット。少数 RLVR の代表的検証用。(arXiv)


DeepMath‑103K
103 000問
StackExchange 由来・高難度・汎用解法が多く RL 報酬計算 OK。(arXiv)


GSM8K
8 500問
初級算数。GitHub に RLVR 実装テンプレ有り (GitHub)

プログラミング
HumanEval
164題
Python 関数 + テストケース。pytest 実行で即採点。(OpenAI)


MBPP / CodeContests
974題 / 13 000題
標準入力出力テストが充実、報酬計算が容易。

複合タスク
HLE (Humanity’s Last Exam)
2 500問
数学・科学・人文混合。答えは文字列一致で検証可。主に評価セット として使う。

⚠️ 選定のコツ

自動採点が確実に出来る こと（答えが数値／テストケース／正規表現で一意）。
1 問強化学習するだけなら 汎用公式 が学べる問題を選ぶ（例：因数分解や二項定理より、長い論証が必要な幾何証明など）。

 実践 Tips

課題
解決策


報酬スパース

ネガティブ報酬を −0.1 など微小に設定 → 探索を促進

早期収束

Entropy Bonus を 0.01 程度付与し多様性を保つ

過学習
100 step ごとに dev セットをチェックし、成績劣化で early‑stop

例題の選び方
①エラー頻出の問題を分析 → ②類題を 1 問選ぶ → ③少数 RLVR → ④全体再評価、の ループ最適化 が効果的


 まとめ
少数 RLVR = “ごくわずかな例題 × 自動採点” で LLM の推論力を引き出す軽量強化学習。
成功の鍵は 例題の質と報酬設計。
まずは GSM8K (初級) → RLVR‑MATH / DeepMath‑103K (中‑上級) の順に試すと、実装難易度を段階的に上げながら効果を測りやすいでしょう。
これらを踏まえ、HLE スコア向上の前段として「少数 RLVR + 蒸留 + 推論時アルゴリズム改善」を組み合わせると、少ない計算資源でもリーダーボードを一段引き上げられる可能性があります。

課題	解決策
報酬スパース	ネガティブ報酬を −0.1 など微小に設定 → 探索を促進
早期収束	Entropy Bonus を 0.01 程度付与し多様性を保つ
過学習	100 step ごとに dev セットをチェックし、成績劣化で early‑stop
例題の選び方	①エラー頻出の問題を分析 → ②類題を 1 問選ぶ → ③少数 RLVR → ④全体再評価、のループ最適化が効果的

カテゴリ	データセット	規模	特徴と RLVR 向きポイント
数学	RLVR‑MATH (7 500問)	小中〜高数全般	公式解 + Chain‑of‑Thought 付き。verifiable_answer フィールドで自動採点可。(Hugging Face)
	MATH500	500問	OpenAI 作成の高難度サブセット。少数 RLVR の代表的検証用。(arXiv)
	DeepMath‑103K	103 000問	StackExchange 由来・高難度・汎用解法が多く RL 報酬計算 OK。(arXiv)
	GSM8K	8 500問	初級算数。GitHub に RLVR 実装テンプレ有り (GitHub)
プログラミング	HumanEval	164題	Python 関数 + テストケース。`pytest` 実行で即採点。(OpenAI)
	MBPP / CodeContests	974題 / 13 000題	標準入力出力テストが充実、報酬計算が容易。
複合タスク	HLE (Humanity’s Last Exam)	2 500問	数学・科学・人文混合。答えは文字列一致で検証可。主に評価セットとして使う。

HLEスコアを高めるための総合アプローチ

1. 推論時（インターフェース側）の即効テクニック

2. モデル強化（学習側）

3. パイプライン例（小規模 GPU でも可能な最短ルート）

4. ステージ別ロードマップ

5. 注意点

まとめ

少数 RLVR（Few‑shot RLVR）とは？

最小構成の実装フロー

少数 RLVR向きデータセット

実践 Tips

まとめ

少数 RLVR（Few‑shot RLVR）とは？

少数 RLVR向きデータセット