Open1
MTP(Multi-Token Prediction)

MTP(multi token prediction)
- DeepSeekV3で導入されたトークン先読みモジュール
- 学習を効率化する目的で導入。推論時は用いない
- 将来的に投機的デコードとして利用できるかもとコメントしている
Tips
- 出力トークンのn-gramを用いれば、DeepSeekV3の先読み(MTP)は1-token先読みするだけで良くなる
MTP(multi token prediction)
Tips