bilzard

DeepSeek-V2で導入されたMLA(Multihead Latent Attention)ではKV-cacheのサイズを抑えるためにKV/Qの次元削減をしている。
言語モデリングではMHSAよりMLPの方が重要なのでこっちに計算量はサボっても問題ないのかもしれない。
<ul data-line="4" class="code-line">
<li data-line="4" class="code-line">V2のtechnical paperによればlarge MoE modelでkv-cacheを4%に削減したとある</li>
<li data-line="5" class="code-line">理屈はわからないが、MHAの方がMHAより性能が良いという結果になっている</li>
</ul>
<img src="https://storage.googleapis.com/zenn-user-upload/ea6177264d67-20250205.png" loading="lazy" class="md-img"> 
source: <a href="https://github.com/flashinfer-ai/flashinfer/pull/551" target="_blank" rel="nofollow noopener noreferrer">https://github.com/flashinfer-ai/flashinfer/pull/551</a>
<img src="https://storage.googleapis.com/zenn-user-upload/11f3c908100e-20250205.jpeg" loading="lazy" class="md-img"> 
<img src="https://storage.googleapis.com/zenn-user-upload/2d78760b25bb-20250205.jpeg" loading="lazy" class="md-img">