Open1
Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions (Nov 2024)

Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions (Nov 2024)
Alibabaが開発したo1-likeなモデルMacro-o1のwhitepaper。報酬関数によるdecoding、および、その生成結果による生成データセットを含めてファインチューニングを行っている。
多言語の数学評価セットであるMGSMにて7BパラメータのQwen2よりも顕著に優れた性能を示した。
報酬関数に基づくguided decodingではactionの粒度に関して設計の自由度があるが、提案手法では文単位よりも細かい、固定長のトークン列(32/64)からなるmini-stepという単位を提案した。
残念ながらこの手法はデータにより性能がまちまちで、明確な優位性は確認できなかった。