Open1

MTP(Multi-Token Prediction)

bilzardbilzard

MTP(multi token prediction)

  • DeepSeekV3で導入されたトークン先読みモジュール
  • 学習を効率化する目的で導入。推論時は用いない
  • 将来的に投機的デコードとして利用できるかもとコメントしている

Tips

  • 出力トークンのn-gramを用いれば、DeepSeekV3の先読み(MTP)は1-token先読みするだけで良くなる