bilzard

Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions (Nov 2024)
Alibabaが開発したo1-likeなモデルMacro-o1のwhitepaper。報酬関数によるdecoding、および、その生成結果による生成データセットを含めてファインチューニングを行っている。 
多言語の数学評価セットであるMGSMにて7BパラメータのQwen2よりも顕著に優れた性能を示した。
報酬関数に基づくguided decodingではactionの粒度に関して設計の自由度があるが、提案手法では文単位よりも細かい、固定長のトークン列(32/64)からなるmini-stepという単位を提案した。
残念ながらこの手法はデータにより性能がまちまちで、明確な優位性は確認できなかった。
<iframe id="zenn-embedded__66096eada38bd" src="https://embed.zenn.studio/card#zenn-embedded__66096eada38bd" data-content="https%3A%2F%2Farxiv.org%2Fabs%2F2411.14405" frameborder="0" scrolling="no" loading="lazy"></iframe><a href="https://arxiv.org/abs/2411.14405" style="display:none" target="_blank" rel="nofollow noopener noreferrer">https://arxiv.org/abs/2411.14405</a>