<h1 id="key-contributions" data-line="0" class="code-line">
<a class="header-anchor-link" href="#key-contributions" aria-hidden="true"></a> Key Contributions</h1>
<h2 id="standard-attention-problem" data-line="2" class="code-line">
<a class="header-anchor-link" href="#standard-attention-problem" aria-hidden="true"></a> Standard Attention Problem</h2>
<ul data-line="3" class="code-line">
<li data-line="3" class="code-line">if N(input sequence) is large compared to d(channels), S[N,N] and P[N,N] are very large</li>
<li data-line="4" class="code-line">Large Read/Write Cost to VRAM(High Bandwidth Memory)<br>
<img src="https://storage.googleapis.com/zenn-user-upload/346c06e51343-20250622.png" loading="lazy" class="md-img">
</li>
</ul>
<h2 id="flashattention" data-line="7" class="code-line">
<a class="header-anchor-link" href="#flashattention" aria-hidden="true"></a> FlashAttention</h2>
<ul data-line="8" class="code-line">
<li data-line="8" class="code-line">split Q@K^T[N,N] into submatrix Q@K^T[Tc,Tr]. (Tc,Tr size is configurable)</li>
<li data-line="9" class="code-line">decompose softmax</li>
</ul>
<p data-line="11" class="code-line"><strong>Inner Loop (iterating through Query and Output blocks):</strong><br>
<code>for i in 1 to Tr do</code><br>
</p><section class="zenn-katex"><embed-katex display-mode="1"><eqn>P_{ij}^{\text{curr}} = \exp(Q_i @ K_j^T)</eqn></embed-katex></section><br>
<section class="zenn-katex"><embed-katex display-mode="1"><eqn>l_i^{\text{new}} = l_i^{\text{prev}} + \text{rowsum}(P_{ij}^{\text{curr}})</eqn></embed-katex></section><br>
<section class="zenn-katex"><embed-katex display-mode="1"><eqn>O_i^{\text{new}} = \frac{l_i^{\text{prev}} \times O_i^{\text{prev}} + P_{ij}^{\text{curr}} @ V_j}{l_i^{\text{new}}}</eqn></embed-katex></section><br>
<section class="zenn-katex"><embed-katex display-mode="1"><eqn>l_i^{\text{prev}} \leftarrow l_i^{\text{new}}</eqn></embed-katex></section>           <section class="zenn-katex"><embed-katex display-mode="1"><eqn>O_i^{\text{prev}} \leftarrow O_i^{\text{new}}</eqn></embed-katex></section><p></p>
<p data-line="18" class="code-line"><img src="https://storage.googleapis.com/zenn-user-upload/c60ca67ae8de-20250622.png" loading="lazy" class="md-img"></p>
<h1 id="reference" data-line="20" class="code-line">
<a class="header-anchor-link" href="#reference" aria-hidden="true"></a> Reference</h1>
<p data-line="21" class="code-line"><a href="https://arxiv.org/pdf/2205.14135" target="_blank" rel="nofollow noopener noreferrer">FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness</a></p>


[Attention] Flash Attention

Key Contributions

Standard Attention Problem

FlashAttention

Reference

Discussion