📖

Accessing GPT-4 level Mathematical Olympiad Solutions via Monte Carlo

2024/06/13に公開

https://arxiv.org/abs/2406.07394

要約

大規模言語モデル (LLMs) とモンテカルロ木探索 (MCTS) を統合した新しいアルゴリズム MCT Self-Refine (MCTSr) を提案。MCTSr は LLMs の数学的推論能力を高め特に戦略的および数学的推論における精度と信頼性の課題に取り組むことを目的としている

  • MCTSr は選択、自己改善、自己評価、バックプロパゲーションの反復プロセスを通じてモンテカルロ探索木を構築し探索と活用のバランスを最適化するために改良された上限信頼区間 (UCB) 式を利用する

  • 実験により MCTSr がオリンピック級の数学問題を解決する上で有効であることが示された。GSM8K, GSM Hard, MATH, Math Odyssey, AIME, OlympiadBench など複数のデータセットで成功率が大幅に向上した

  • この研究は LLMs の複雑な推論タスクへの応用を進め今後の AI 統合の基盤を築き LLM 主導のアプリケーションにおける意思決定の精度と信頼性を向上させるものである

  • MCTSr のコンポーネントは高度にスケーラブルであり、より広範なコンポーネントアルゴリズムを特定・比較するための継続的な開発が必要である

  • 今後の研究ではアルゴリズムのコンポーネントを最適化し様々な問題や設定でその性能をテストすることで、より広範な実用性と有効性を実現することを目指している

Abstract

  • MCT Self-Refine (MCTSr) アルゴリズムを提案 - 大規模言語モデル (LLMs) とモンテカルロ木探索 (MCTS) の統合により複雑な数学的推論タスクにおける LLMs の性能を向上

  • MCTSr は体系的な探索とヒューリスティックな自己改善メカニズムを利用して LLMs 内の意思決定フレームワークを改善

  • 複数のデータセット (GSM8K, GSM Hard, MATH, Math Odyssey, AIME, OlympiadBench) における実験により MCTSr の有効性を実証 - オリンピックレベルの数学問題解決における成功率を大幅に向上

  • LLMs の複雑な推論タスクへの応用を進め LLM 主導のアプリケーションにおける意思決定の精度と信頼性を高めるための将来の AI 統合基盤を確立

1 Introduction

Figure 1 : Agents can learn decision-making and reasoning from the trial-and-error as humans do.

  • 大規模言語モデル (LLMs) は自然言語処理の進歩に不可欠だが戦略的・論理的推論を必要とする分野では課題がある。特に数学の文脈では LLM の推論能力は幻覚を生み出しやすく合理的なプロセスを損なう可能性がある

  • 本論文では LLMs とモンテカルロ木探索 (MCTS) を統合した MCT Self-Refine (MCTSr) を提案し数学オリンピックのような複雑な数学的推論タスクにおける LLMs の性能向上に焦点を当てる

  • MCTS を LLMs に適応させる際には LLMs の確率的・生成的な性質に合わせて MCTS の戦略を調整する必要がある。また動的なプルーニング戦略を導入し改良された上限信頼区間 (UCB) 式を用いて探索と活用のバランスを最適化する

  • 本研究の主な貢献は (1) LLMs と UCT-MCTS を統合した新しい推論アルゴリズムの開発と検証 (2) MCTS フレームワーク内の意思決定プロセスを改良する動的プルーニングモジュールを提案 (3) LLMs と MCTS の相乗効果の可能性を示す広範な実験の提供である

  • この研究は LLMs の高度な推論課題への応用を進め意思決定の精度と信頼性を高める LLM 主導のアプリケーションにおける将来の AI 技術の統合の基盤を築くものである

2 Preliminary

  • モンテカルロ木探索 (MCTS) は意思決定アルゴリズムであり探索木を構築し結果をシミュレーションして行動の価値を推定する。MCTS は 4 つの主要な段階(選択、拡張、シミュレーション、バックプロパゲーション)で構成される

  • 選択段階では Upper Confidence Bound applied on Trees (UCT) アルゴリズムが重要な役割を果たす。UCT は探索と活用のバランスを取るために報酬の平均と訪問回数に基づいて行動を選択する

UCT_{j}=\bar{X}_{j}+C\sqrt{\frac{2\ln N_{C}}{N_{j}}}\tag{1}
  • MCT Self-Refine (MCTSr) アルゴリズムは MCTS と大規模言語モデル (LLMs) を統合し数学問題解決の反復的な改良プロセスを探索木構造に抽象化する

  • MCTSr アルゴリズムの理解を促進するために問題インスタンス (P), 解答ノード (A), 行動 (M), 自己報酬関数 (R), 終了関数 (T), 価値関数 (Q), 上限信頼区間 (U), 親ノード関数 (Father), 子ノード関数 (Children), 訪問回数関数 (N) などのシンボルと関数が定義されている

3 Methodology

MCTSrアルゴリズムの主なワークフローは以下の通りである:

  • Initialization : ナイーブなモデル生成解答とダミー応答を用いてルートノードを確立しモデルの過剰適合傾向を最小化する

  • Selection : 価値関数 Q を用いて完全に展開されていないすべての解答をランク付けしグリーディー戦略を用いて更なる探索と改良のために最も価値の高いノードを選択する

  • Self-Refine : 選択された解答 a は Self-Refine フレームワークを用いて最適化される。モデルはフィードバック m を生成して改良プロセスが拡張された解答 a' を生成する

  • Self-Evaluation : 改良された解答のスコアを付け報酬値をサンプリングして Q 値を計算する。これにはモデルの自己報酬フィードバックと厳格な採点基準や満点を抑えるなどの制約が含まれる

  • Backpropagation : 改良された解答の値を親ノードおよび関連するノードに逆伝播してツリーの値情報を更新する。子ノードの Q 値が変更された場合、親ノードの Q が更新される。

  • UCT update : すべてのノードの Q 値が更新された後、候補ノードのコレクション C を特定し次の選択段階に向けて UCT 更新式を用いてすべてのノードの UCT 値を更新する

このアルゴリズムはロールアウトの制約や探索の最大深度などの終了条件 T が満たされるまで此れらの段階を繰り返し解答の品質を継続的に改良して新しい可能性を探索する

3.1 Self-Refine

  • 自己改善プロセスでは複数のターンからなる対話的な改善プロンプトに導かれ LLM が問題 P に対する解答 a を最適化する
  • モデルは先ず解答 a についての反省的・批判的なコメント m を生成し次に m に導かれて a を修正し改善版 a' を生成する
  • この反復的な改良により構造化されたフィードバックを利用して解答の品質が向上する

3.2 Self-Evaluation

  • 数学問題 P の改良プロセスにおいて解答 a の Q 値は a をさらに改良して優れた解答を得ることの期待値と定義される
  • モデルは自己報酬法を用いて a の報酬を推定し -100 から 100 の範囲の報酬スコアを提供する
  • 過度に滑らかな報酬傾向に対処するため (1) 厳格な基準遵守 (2) 満点抑制 (3) 報酬サンプリング反復の 3 つの制約が設計されている
  • サンプリング後に最悪のケースと平均的な結果のバランスを取るため報酬の最小値と平均値を用いて a の Q 値が計算される
Q(a)=\frac{1}{2}\left(\min{R_{a}}+\frac{1}{|R_{a}|}\Sigma^{|R_{a}|}_{i=1}{R_{a% }^{i}}\right)\tag{2}

3.3 Backpropagation

  • すべてのリーフノードの報酬値サンプリングと Q 値の更新が完了した後、この変更を親ノードと祖先ノードに伝播させる
  • ノード a の子ノード集合 Children(a) の要素に対する Q 関数値が変更された場合、そのノードの Q 関数値は現在の値と子ノードから得られる最良の結果の平均として更新される
Q^{\prime}(a)=\frac{1}{2}\left(Q(a)+\max_{i\in\text{Children}(a)}Q(i)\right)\tag{3}

3.4 Update UCT and Selection

  • すべてのノードの Q 値を更新した後、次のラウンドの選択段階に進む
  • 数学問題の改良プロセスのマルコフ性を利用し全てのリーフノードと完全に展開されていないノードに焦点を当て改良パスの履歴を無視する
  • 「完全な展開」を決定するための 2 つの基準を提案 : (1) ノードの子ノード数が事前に定義された上限に達する (2) 少なくとも 1 つの子ノードの Q 値がノードの Q 値を超える
  • さらなる展開または選択のために候補ノードのコレクション C を特定する
  • AlphaGo を参考に UCT と UCB-1 法を用いてノードの探索と活用のバランスを取る
UCT_{a}=Q(a)+c\sqrt{\frac{\ln{N(\text{Father}(a))+1}}{N(a)+\epsilon}}\tag{4}

3.5 Termination Function

  • MCTSr アルゴリズムにおける探索終了関数の条件 T は (1) 早期停止 (2) 探索制約 (3) 言語モデルのロジットに基づく高度な基準から導出できる
  • 終了関数の条件 T が満たされると Q 値やその他の条件に従ってツリーノードから最良の解答を収集できる

4 Evaluation

4.1 Experiment Settings

  • Llama3-8B をベースモデルとして MCTSr アルゴリズムの有効性を評価
  • Zero-Shot CoT, Self-Refine, 4-rollouts MCTSr, 8-rollouts MCTSr の 4 つの設定で比較
  • GSM8K, GSM Hard, MATH, AIME, Math Odyssey, OlympiadBench (pure-text subset) のデータセットを使用

4.2 GSM Benchmarks

  • GSM8K と GSM-hard のテストセットで評価
  • MCTSr のロールアウト数と成功率に直接の相関があり反復回数が増えるほど大幅に改善
  • GSM-Hard では高いロールアウトでも複雑な問題に対するパフォーマンスの限界が示された

4.3 MATH Benchmark

  • MATH データセットの難易度レベル 1-5 で評価
  • レベル 1 では 8-rollouts MCTSr が 90.16% の成功率、レベル 5 では 34.06% の成功率
  • 全体では 8-rollouts MCTSr が 58.24% の成功率
  • ロールアウトの増加と成功率の向上に一貫した傾向がある

4.4 Olympiad-level Benchmarks

  • AIME, GAIC Math Odyssey, OlympiadBench の 3 つのデータセットで評価
  • AIME では Zero-Shot CoT の 2.36% から 8-rollouts MCTSr の 11.79% に向上
  • GAIC Math Odyssey では 17.22% から 49.36% に大幅に改善
  • OlympiadBench では 1.25% から 7.76% に改善
  • ロールアウトの増加と成功率の向上に明確な傾向がある

4.5 Discussion

  • 現在の最先端の大規模言語モデルの性能と比較して MCTSr は Llama-3 のような小規模なオープンソースモデルの数学的推論能力を同等のレベルまで効果的に向上させることができる。

モンテカルロ木探索 (MCTS) は様々な分野で複雑な問題を効率的に解決するために広く利用されている

  • Pitanov らは MCTS をマルチエージェントパスファインディングに応用し A* などのヒューリスティック探索アルゴリズムよりも優れていることを示した

  • Yang は MCTS をヒューリスティック、教師なし、教師ありの学習方法と統合して列車時刻表問題を効率的に解決した

  • Li らは MCTS を組み込んだ統一フレームワークを用いて様々なタイプの SAT 問題を解決する一般的な方法を導入した

  • Vagadia らは物理インフォームドニューラルネットワークと修正された MCTS を組み合わせた PhyPlan を開発しロボットが動的な物理タスクを効果的に実行できるようにした

大規模言語モデル (LLMs) の数学的推論能力の向上については最近多くの研究が行われている

  • Du らは複数の LLMs が協調して解答を改良する方法を導入し推論と事実の正確性を大幅に向上させた

  • Luo らは WizardMath を開発し Evol-Instruct Feedback からの強化学習を活用して既存の LLMs を数学のベンチマークで上回った

  • Lu らは視覚的な数学のベンチマークである MathVista を作成し GPT-4V が 49.9% の精度を達成したが人間の性能との差は依然として存在することを示した

  • Yu らは数学的課題に優れた微調整モデル MetaMath を導入し Yuan らは Pre-training loss と Rejection sampling Fine-Tuning を最適化することで LLM の性能、特に進歩の遅いモデルの性能を最適化できることを示した

これらの研究は LLM の数学的推論における重要な進歩を示唆しているが継続的な研究の必要性も強調している

6 Limitations

MCTSr アルゴリズムは数学的タスクにおいて一定の利点を示しているが、この研究はまだ初期段階にある。一般的な意思決定フレームワークとして MCTSr のブラックボックス最適化問題や大規模言語モデルの自己駆動型アラインメントなど様々なシナリオでの応用可能性についてはさらなる探求が必要である

また MCTSr のコンポーネントは高度にスケーラブルであるため、より広範なコンポーネントアルゴリズムを特定・比較するための継続的な開発が必要であり、これにより MCTSr アルゴリズムの実用的な可能性と有効性を高めることができる

7 Conclusion

この論文ではモンテカルロ木探索 (MCTS) と大規模言語モデル (LLMs) を統合した新しいアルゴリズム MCT Self-Refine (MCTSr) を提案し LLMs の複雑な数学的推論能力の向上を示している。MCTSr は特に数学的推論タスクにおける精度と信頼性の課題に取り組み、実験では GSM8K, GSM Hard, MATH, Math Odyssey, AIME, OlympiadBench など複数のデータセットで問題解決の成功率が大幅に向上することが示された

この研究は LLMs の高度な推論タスクへの応用を進め、意思決定の精度と信頼性を高める LLM 主導のアプリケーションにおける将来の AI 統合の基盤を築くものである。MCTSr の数学的問題解決における可能性は示されたがブラックボックス最適化や自己駆動型アラインメントなどより広範な文脈での適用可能性についてはさらなる探究が必要である。将来の研究ではアルゴリズムのコンポーネントを最適化し様々な問題や設定でその性能をテストすることで、より広範な実用性と有効性の実現を目指す

Discussion