<h1 id="previous-works" data-line="0" class="code-line">
<a class="header-anchor-link" href="#previous-works" aria-hidden="true"></a> Previous Works</h1>
<h2 id="memory-fragmentations" data-line="1" class="code-line">
<a class="header-anchor-link" href="#memory-fragmentations" aria-hidden="true"></a> Memory Fragmentations</h2>
<p data-line="2" class="code-line">internal fragmentation: not used max token size<br>
external fragmentation: free memory is scattered, not contiguous enough for a new request.</p>
<p data-line="5" class="code-line">ex)<br>
request A: max tokens=2048<br>
request B: max tokens=512<br>
<img src="https://storage.googleapis.com/zenn-user-upload/8e6066474a02-20250616.png" loading="lazy" class="md-img"></p>
<h1 id="key-contributions" data-line="10" class="code-line">
<a class="header-anchor-link" href="#key-contributions" aria-hidden="true"></a> Key Contributions</h1>
<h2 id="block-table-translation" data-line="12" class="code-line">
<a class="header-anchor-link" href="#block-table-translation" aria-hidden="true"></a> block table translation</h2>
<p data-line="13" class="code-line">block table store</p>
<ul data-line="14" class="code-line">
<li data-line="14" class="code-line">physical block number: index of block</li>
<li data-line="15" class="code-line">filled: 0~Max Size<br>
<img src="https://storage.googleapis.com/zenn-user-upload/a2a25872e50a-20250616.png" loading="lazy" class="md-img">
</li>
</ul>
<h2 id="2-requests-at-the-same-time" data-line="18" class="code-line">
<a class="header-anchor-link" href="#2-requests-at-the-same-time" aria-hidden="true"></a> 2 requests at the same time</h2>
<ul data-line="19" class="code-line">
<li data-line="19" class="code-line">each request will use a different block<br>
<img src="https://storage.googleapis.com/zenn-user-upload/605f7d4948ac-20250616.png" loading="lazy" class="md-img">
</li>
</ul>
<h2 id="shared-prefix" data-line="22" class="code-line">
<a class="header-anchor-link" href="#shared-prefix" aria-hidden="true"></a> shared prefix</h2>
<p data-line="23" class="code-line">can share a kv cache within a block level by reference counts</p>
<ol data-line="24" class="code-line">
<li data-line="24" class="code-line">Block7: ref count=2</li>
<li data-line="25" class="code-line">Blcok1: ref count=2-&gt;1(due to block diverge at last the token)</li>
<li data-line="26" class="code-line">Block3: ref count=1<br>
<img src="https://storage.googleapis.com/zenn-user-upload/8ae0d03eb6f6-20250616.png" loading="lazy" class="md-img">
</li>
</ol>
<h1 id="reference" data-line="30" class="code-line">
<a class="header-anchor-link" href="#reference" aria-hidden="true"></a> Reference</h1>
<p data-line="31" class="code-line"><a href="https://arxiv.org/pdf/2309.06180" target="_blank" rel="nofollow noopener noreferrer">Efficient Memory Management for Large Language Model Serving with PagedAttention</a></p>


[KVCache] PagedAttention

Previous Works

Memory Fragmentations

Key Contributions

block table translation

2 requests at the same time

shared prefix

Reference

Discussion