Open1
投機的デコーディング(Speculative Decoding)

Speculative decoding
- 統計学の理論に基づいて小さいモデルで先読みした結果を有効活用し、元のモデルのデコード回数を減らしつつ、元のモデルの確率分布と理論的に一致するデコードができるという魔法のような手法
- T5-XXLのデコードをx2-x3の高速化に成功
Tips
- 計算量の削減度合いは先読み用モデルがどれだけ元のモデルを良く近似するかにより変わる
- 生成は1トークンずつしか処理できないが、先のトークンがあらかじめわかっていれば並列処理ができるというTransformerの特性を利用している