bilzard

7B model/8k dataを使ってR1のself-improve phenomenaを再現したという報告。
Training stepの増加とともにトークン長が増加する現象や、"aha moment"も再現した。
訓練に使用したのはMathデータセットだが、AIMEのようなより難しい問題に対しても汎化した。
最初にQwQで生成したCoTテキストを使ってwarmupする。
R1とは異なり、トークン長が最初減少し、再び増加に転じるという振る舞いを観測した。
おそらくこれはベースモデルのコンテクスト長がQwQより短いので、解法の途中で打ち切られたためだろう。
<iframe id="zenn-embedded__16f1e1db0cbfa" src="https://embed.zenn.studio/card#zenn-embedded__16f1e1db0cbfa" data-content="https%3A%2F%2Fhkust-nlp.notion.site%2Fsimplerl-reason" frameborder="0" scrolling="no" loading="lazy"></iframe><a href="https://hkust-nlp.notion.site/simplerl-reason" style="display:none" target="_blank" rel="nofollow noopener noreferrer">https://hkust-nlp.notion.site/simplerl-reason</a>
<img src="https://storage.googleapis.com/zenn-user-upload/0d821c441194-20250205.png" loading="lazy" class="md-img"> 
<img src="https://storage.googleapis.com/zenn-user-upload/346c1087ad2f-20250205.png" loading="lazy" class="md-img"> 
<img src="https://storage.googleapis.com/zenn-user-upload/952c2639c292-20250205.jpeg" loading="lazy" class="md-img">

3Bモデルを使った再現実験も報告されている
<iframe id="zenn-embedded__864e754ea718c" src="https://embed.zenn.studio/tweet#zenn-embedded__864e754ea718c" data-content="https%3A%2F%2Fx.com%2Fjiayi_pirate%2Fstatus%2F1882839370505621655" frameborder="0" scrolling="no" loading="lazy"></iframe>