Open2

7BモデルでDeepSeek-R1のRLを再現する

bilzardbilzard

7B model/8k dataを使ってR1のself-improve phenomenaを再現したという報告。

Training stepの増加とともにトークン長が増加する現象や、"aha moment"も再現した。

訓練に使用したのはMathデータセットだが、AIMEのようなより難しい問題に対しても汎化した。

最初にQwQで生成したCoTテキストを使ってwarmupする。

R1とは異なり、トークン長が最初減少し、再び増加に転じるという振る舞いを観測した。

おそらくこれはベースモデルのコンテクスト長がQwQより短いので、解法の途中で打ち切られたためだろう。

https://hkust-nlp.notion.site/simplerl-reason