Open1

Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions (Nov 2024)

bilzardbilzard

Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions (Nov 2024)

Alibabaが開発したo1-likeなモデルMacro-o1のwhitepaper。報酬関数によるdecoding、および、その生成結果による生成データセットを含めてファインチューニングを行っている。
多言語の数学評価セットであるMGSMにて7BパラメータのQwen2よりも顕著に優れた性能を示した。

報酬関数に基づくguided decodingではactionの粒度に関して設計の自由度があるが、提案手法では文単位よりも細かい、固定長のトークン列(32/64)からなるmini-stepという単位を提案した。

残念ながらこの手法はデータにより性能がまちまちで、明確な優位性は確認できなかった。

https://arxiv.org/abs/2411.14405