Marco-o1: オープンエンド解のためのオープン推論モデルに向ける新しいモデル(新しい研究論文の紹介)
OpenAIはその優れた推論機能で画期的なo1モデルを発表しました。このモデルは、AIME(https://en.wikipedia.org/wiki/American_Invitational_Mathematics_Examination) や CodeForces (https://codeforces.com/problemset) などのプラットフォームで、他の主要モデルを凌駕するほど、優れた性能を発揮しています。その成功に触発されて、この論文の研究目標は、LLMの境界をさらに押し広げ、複雑な現実世界の課題に取り組むための推論能力を強化することです。
Marco-o1 は、数学、物理学、コーディングなど、強化学習 (RL) に適した標準的な答えを持つ分野に焦点を当てるだけでなく、自由形式の解決策にも重点を置いています。現時点、Marco-o1 LLMは、CoT(Chain-of-Thought)の微調整、モンテカルロ ツリー探索(MCTS)、リフレクションメカニズム、革新的な推論戦略によって強化されており、複雑な現実世界の問題解決タスクに最適化されています。
この論文で際立つ物の1つとして、「思考後のリフレクション」戦略は、「待て!もしかしたら、何か間違えたのかもしれません。ゼロから考え直す必要があります」と、各思考プロセスの最後に。これにより、モデルは自己反省し、推論ステップを再評価するように促されます。このリフレクションを実装することで、特に元のモデルが最初に誤って解決した難しい問題に対して、大幅な改善がもたらされました。リフレクションステップは内部フィードバックループとして機能し、外部からの介入なしにモデルを自己修正する能力を強化します。
論文詳細 - https://arxiv.org/pdf/2411.14405
Github - https://github.com/AIDC-AI/Marco-o1
Discussion