<h1 id="key-contributions" data-line="0" class="code-line">
<a class="header-anchor-link" href="#key-contributions" aria-hidden="true"></a> Key Contributions</h1>
<h2 id="block-sparse-and-composable-formats-for-kv-cache" data-line="1" class="code-line">
<a class="header-anchor-link" href="#block-sparse-and-composable-formats-for-kv-cache" aria-hidden="true"></a> Block-Sparse and Composable Formats for KV-Cache</h2>
<p data-line="2" class="code-line">Unique KV-Cache: unique tokens -&gt; use L2 cache or VRAM(Global Memory)<br>
Shared KV-Cache: frequently use tokens ex) shared-prefix -&gt; use shared memory</p>
<p data-line="5" class="code-line"><img src="https://storage.googleapis.com/zenn-user-upload/82deca50c8aa-20250621.png" loading="lazy" class="md-img"></p>
<h2 id="dynamic-load-balanced-scheduling" data-line="9" class="code-line">
<a class="header-anchor-link" href="#dynamic-load-balanced-scheduling" aria-hidden="true"></a> Dynamic Load-Balanced Scheduling</h2>
<p data-line="10" class="code-line">grouping works into similar size to balance works<br>
<img src="https://storage.googleapis.com/zenn-user-upload/aa6704503fe7-20250621.png" loading="lazy" class="md-img"></p>
<h1 id="reference" data-line="13" class="code-line">
<a class="header-anchor-link" href="#reference" aria-hidden="true"></a> Reference</h1>
<p data-line="14" class="code-line"><a href="https://arxiv.org/pdf/2501.01005" target="_blank" rel="nofollow noopener noreferrer">FLASHINFER: EFFICIENT AND CUSTOMIZABLE ATTENTION ENGINE FOR<br>
LLM INFERENCE SERVING</a></p>


[KVCache] FlashInfer

Block-Sparse and Composable Formats for KV-Cache

Key Contributions

Block-Sparse and Composable Formats for KV-Cache

Dynamic Load-Balanced Scheduling

Reference

Discussion