bilzard

Speculative decoding
<ul data-line="2" class="code-line">
<li data-line="2" class="code-line">統計学の理論に基づいて小さいモデルで先読みした結果を有効活用し、元のモデルのデコード回数を減らしつつ、元のモデルの確率分布と理論的に一致するデコードができるという魔法のような手法</li>
<li data-line="3" class="code-line">T5-XXLのデコードをx2-x3の高速化に成功</li>
</ul>
Tips
<ul data-line="7" class="code-line">
<li data-line="7" class="code-line">計算量の削減度合いは先読み用モデルがどれだけ元のモデルを良く近似するかにより変わる</li>
<li data-line="8" class="code-line">生成は1トークンずつしか処理できないが、先のトークンがあらかじめわかっていれば並列処理ができるというTransformerの特性を利用している</li>
</ul>
<iframe id="zenn-embedded__bf48905402ef9" src="https://embed.zenn.studio/card#zenn-embedded__bf48905402ef9" data-content="https%3A%2F%2Farxiv.org%2Fabs%2F2211.17192" frameborder="0" scrolling="no" loading="lazy"></iframe><a href="https://arxiv.org/abs/2211.17192" style="display:none" target="_blank" rel="nofollow noopener noreferrer">https://arxiv.org/abs/2211.17192</a>
<img src="https://storage.googleapis.com/zenn-user-upload/ad57b6fd9473-20250205.jpeg" loading="lazy" class="md-img"> 
<img src="https://storage.googleapis.com/zenn-user-upload/c474f4fadc2e-20250205.jpeg" loading="lazy" class="md-img"> 
<img src="https://storage.googleapis.com/zenn-user-upload/f0ae640269da-20250205.jpeg" loading="lazy" class="md-img"> 
<img src="https://storage.googleapis.com/zenn-user-upload/bfc475ac07fc-20250205.jpeg" loading="lazy" class="md-img">