<h2 id="%E3%81%AF%E3%81%98%E3%82%81%E3%81%AB" data-line="0" class="code-line">
<a class="header-anchor-link" href="#%E3%81%AF%E3%81%98%E3%82%81%E3%81%AB" aria-hidden="true"></a> はじめに</h2>
<p data-line="2" class="code-line">llama.cppは独自の量子化アルゴリズムを使用している。公式でまとまった資料がないため、PRやIssueを追わないといけないっぽい。<br>
以下の記述はReddit post[1]の内容をもとに、関連するPR/Issueを辿って詳細を補足したもの。</p>
<h2 id="%E7%94%A8%E8%AA%9E%E3%81%AB%E3%81%A4%E3%81%84%E3%81%A6" data-line="5" class="code-line">
<a class="header-anchor-link" href="#%E7%94%A8%E8%AA%9E%E3%81%AB%E3%81%A4%E3%81%84%E3%81%A6" aria-hidden="true"></a> 用語について</h2>
<ul data-line="7" class="code-line">
<li data-line="7" class="code-line">GGUFはファイルフォーマットの名称であって、量子化アルゴリズムを指すものではない</li>
<li data-line="8" class="code-line">GGMLはllama.cppの計算ライブラリをさす名称のようだが、issueでは"In the existing ggml quantization types"という使われ方をしていて、<code>GGML</code>は仕様の名称としても使われてるっぽい。</li>
<li data-line="9" class="code-line">この記事では無難に「llama.cppの量子化アルゴリズム」と呼ぶことにする</li>
</ul>
<h2 id="llama.cpp%E3%81%AE%E9%87%8F%E5%AD%90%E5%8C%96%E3%82%A2%E3%83%AB%E3%82%B4%E3%83%AA%E3%82%BA%E3%83%A0" data-line="11" class="code-line">
<a class="header-anchor-link" href="#llama.cpp%E3%81%AE%E9%87%8F%E5%AD%90%E5%8C%96%E3%82%A2%E3%83%AB%E3%82%B4%E3%83%AA%E3%82%BA%E3%83%A0" aria-hidden="true"></a> llama.cppの量子化アルゴリズム</h2>
<h3 id="legacy-quants%3A-%E5%9B%BA%E5%AE%9A%E3%83%93%E3%83%83%E3%83%88%E3%83%AC%E3%83%BC%E3%83%88" data-line="13" class="code-line">
<a class="header-anchor-link" href="#legacy-quants%3A-%E5%9B%BA%E5%AE%9A%E3%83%93%E3%83%83%E3%83%88%E3%83%AC%E3%83%BC%E3%83%88" aria-hidden="true"></a> <strong>Legacy quants</strong>: 固定ビットレート</h3>
<ul data-line="15" class="code-line">
<li data-line="15" class="code-line">
<code>QX_[0-4]</code>という名前がついたもの（例: Q4_0, Q4_1, Q8_0, ...）</li>
<li data-line="16" class="code-line">weightの区画(block)ごとに異なるスケールを適用してquantize/dequantizeする。</li>
<li data-line="17" class="code-line">
<code>f</code>を量子化関数、<code>q</code>を量子化時のモデルの重み、<code>x</code>を計算時のモデル重み、<code>d</code>をスケールとすると、quantizeは<code>q = f(x / d)</code>、dequantizeは<code>x=d * q</code>と計算される。</li>
<li data-line="18" class="code-line">従って圧縮後は量子化された重み+スケール(or バイアス)パラメータを保持する。</li>
</ul>
<h4 id="_%5B0-4%5D%E3%81%AE%E5%AE%9A%E7%BE%A9" data-line="20" class="code-line">
<a class="header-anchor-link" href="#_%5B0-4%5D%E3%81%AE%E5%AE%9A%E7%BE%A9" aria-hidden="true"></a> _[0-4]の定義</h4>
<p data-line="22" class="code-line">q-&gt;xにdequantizeするときのバイアスの有無とblockサイズ（独立してスケールするweightの区画のサイズ）が異なる。</p>
<ul data-line="24" class="code-line">
<li data-line="24" class="code-line">0: バイアスなし（<code>x = d * q</code>）。block=32</li>
<li data-line="25" class="code-line">1: バイアスあり（<code>x = m + d * q</code>）。block=32</li>
<li data-line="26" class="code-line">2: バイアスなし（<code>x = d * q</code>）。block=16</li>
<li data-line="27" class="code-line">3: バイアスあり（<code>x = m + d * q</code>）。block=16</li>
<li data-line="28" class="code-line">4: バイアスなし（<code>x = d * q</code>）。block=8, super block=16</li>
</ul>
<h4 id="super-block%E3%81%AB%E3%81%A4%E3%81%84%E3%81%A6" data-line="30" class="code-line">
<a class="header-anchor-link" href="#super-block%E3%81%AB%E3%81%A4%E3%81%84%E3%81%A6" aria-hidden="true"></a> super blockについて</h4>
<p data-line="32" class="code-line">PPLによる評価ではblock=32よりblock=16の方が性能が良かった。従って、スケールする粒度（block数）を小さくするほど性能がよくなると考えられるが、block=8を採用した場合、スケール分に一律にFP16を確保すると圧縮効率が悪い（例: 4 bit量子化の場合、bit rate=4 + 16/8=6 bpw）。そこで、<code>_4</code>以降では</p>
<ul data-line="34" class="code-line">
<li data-line="34" class="code-line">blockごとのスケールはINT8で保持</li>
<li data-line="35" class="code-line">blockをまとめたsuper blockで共通のスケールをFP16で保持</li>
</ul>
<p data-line="37" class="code-line">という2段階のスケーリングを採用した。この方式により、量子化ビット数4, block=8, super block=16でのビットレートは5.125 bpw (4 + 8/8 + 16/(16*8))となる。</p>
<p data-line="39" class="code-line">参考: <a href="https://github.com/ggerganov/llama.cpp/issues/1240" target="_blank" rel="nofollow noopener noreferrer">QX_4 quantization #1240</a></p>
<h3 id="k-quants%3A-%E5%8F%AF%E5%A4%89%E3%83%93%E3%83%83%E3%83%88%E3%83%AC%E3%83%BC%E3%83%88" data-line="41" class="code-line">
<a class="header-anchor-link" href="#k-quants%3A-%E5%8F%AF%E5%A4%89%E3%83%93%E3%83%83%E3%83%88%E3%83%AC%E3%83%BC%E3%83%88" aria-hidden="true"></a> <strong>K-quants</strong>: 可変ビットレート</h3>
<ul data-line="43" class="code-line">
<li data-line="43" class="code-line">
<code>QX_K_{S,M,L}</code>という名前がついたもの（Q3_K_S, Q5_K_M, ...）</li>
<li data-line="44" class="code-line">均一のビットレートで量子化よりも、レイヤごとに精度を変えた方が同じ圧縮率でPPLが低くできる（例: 4bit → 3bit + 5bit）という実験結果に基づき、レイヤごとに異なる精度で量子化している。</li>
<li data-line="45" class="code-line">最初、<code>QX</code>は量子化ビット数を表していたが、この方式だと異なる精度が混ざっているのでビットレート（weightあたりの平均量子化ビット数）を表すようになった</li>
<li data-line="46" class="code-line">レイヤごとのビット数の混合の配分によってビットレート（の小数点以下）が異なる。混合の配分のプリセットにはそれぞれS, M, Lなどの名称がついていて、S&lt;M&lt;Lの順にビットレートが大きくPPLが小さい（性能が良い）</li>
<li data-line="47" class="code-line">
<code>_4</code>と同様にsuper blockを採用している</li>
</ul>
<p data-line="49" class="code-line">参考: <a href="https://github.com/ggerganov/llama.cpp/pull/1684" target="_blank" rel="nofollow noopener noreferrer"> k-quants #1684</a></p>
<h3 id="i-quants" data-line="51" class="code-line">
<a class="header-anchor-link" href="#i-quants" aria-hidden="true"></a> <strong>I-quants</strong>
</h3>
<ul data-line="53" class="code-line">
<li data-line="53" class="code-line">
<code>IQX_{XXS,XS,S,...}</code>という名前のもの (IQ2_XXS, IQ3_S, ...)</li>
<li data-line="54" class="code-line">SOTAの2 bit量子化アルゴリズムQuIP#[2]のアイデアの一部を取り入れた</li>
</ul>
<p data-line="56" class="code-line">参考: <a href="https://github.com/ggerganov/llama.cpp/pull/4773" target="_blank" rel="nofollow noopener noreferrer">SOTA 2-bit quants #4773</a></p>
<h3 id="even-more-quants%3F" data-line="58" class="code-line">
<a class="header-anchor-link" href="#even-more-quants%3F" aria-hidden="true"></a> Even more quants?</h3>
<p data-line="60" class="code-line">将来的な量子化アルゴリズムの可能性について議論されている。</p>
<ol data-line="62" class="code-line">
<li data-line="62" class="code-line">Row-wise quantization</li>
<li data-line="63" class="code-line">Non-linear quantization</li>
<li data-line="64" class="code-line">k-means clustering quantization</li>
</ol>
<p data-line="66" class="code-line">参考: <a href="https://github.com/ggerganov/llama.cpp/discussions/5063" target="_blank" rel="nofollow noopener noreferrer">Even more quantization types? #5063</a></p>
<h3 id="1.5bit%E9%87%8F%E5%AD%90%E5%8C%96" data-line="68" class="code-line">
<a class="header-anchor-link" href="#1.5bit%E9%87%8F%E5%AD%90%E5%8C%96" aria-hidden="true"></a> 1.5Bit量子化</h3>
<p data-line="70" class="code-line">1.5bit量子化も実用化されている。<br>
最近だとunslothがDeepSeek-R1の1.5bit量子化したGGUFを公開した[3]のが有名。</p>
<h4 id="iq1_s" data-line="73" class="code-line">
<a class="header-anchor-link" href="#iq1_s" aria-hidden="true"></a> IQ1_S</h4>
<ul data-line="75" class="code-line">
<li data-line="75" class="code-line">PPL PB-LLM, PPL BiLLMを参考にしつつ、これらを上回る性能(PPL)を実現</li>
<li data-line="76" class="code-line">salient/non-salient channelの分離に1bit使うので、channelの分離は不採用</li>
</ul>
<p data-line="78" class="code-line">参考: <a href="https://github.com/ggerganov/llama.cpp/pull/5453" target="_blank" rel="nofollow noopener noreferrer">1.5bit quantization</a></p>
<h4 id="iq1_s_r4" data-line="80" class="code-line">
<a class="header-anchor-link" href="#iq1_s_r4" aria-hidden="true"></a> IQ1_S_R4</h4>
<ul data-line="82" class="code-line">
<li data-line="82" class="code-line">superblockを採用せず、block=32に(R1は256で割り切れないチャネルが多かったため)</li>
</ul>
<p data-line="84" class="code-line">参考: <a href="https://github.com/ikawrakow/ik_llama.cpp/pull/185" target="_blank" rel="nofollow noopener noreferrer">IQ1_S_R4: better 1.5bpw quantization</a></p>
<h2 id="reference" data-line="86" class="code-line">
<a class="header-anchor-link" href="#reference" aria-hidden="true"></a> Reference</h2>
<ol data-line="88" class="code-line">
<li data-line="88" class="code-line"><a href="https://www.reddit.com/r/LocalLLaMA/comments/1ba55rj/overview_of_gguf_quantization_methods" target="_blank" rel="nofollow noopener noreferrer">Overview of GGUF quantization methods</a></li>
<li data-line="89" class="code-line"><a href="https://github.com/Cornell-RelaxML/quip-sharp" target="_blank" rel="nofollow noopener noreferrer">QuIP#: Even Better LLM Quantization with Hadamard Incoherence and Lattice Codebooks, ICML 2024</a></li>
<li data-line="90" class="code-line"><a href="https://unsloth.ai/blog/deepseekr1-dynamic" target="_blank" rel="nofollow noopener noreferrer">Run DeepSeek R1 Dynamic 1.58-bit</a></li>
</ol>


GGUFファイルの量子化タイプについて

bilzard

<p data-line="0" class="code-line">参考: 2023年末のTuringの資料ではデータの持ち方まで詳細にリバースエンジニアリングされている。</p>
<p data-line="2" class="code-line"><span class="embed-block zenn-embedded zenn-embedded-card"><iframe id="zenn-embedded__c24c7ccdc8231" src="https://embed.zenn.studio/card#zenn-embedded__c24c7ccdc8231" data-content="https%3A%2F%2Fzenn.dev%2Fturing_motors%2Farticles%2Ff5f19f875bd8ba" frameborder="0" scrolling="no" loading="lazy"></iframe></span><a href="https://zenn.dev/turing_motors/articles/f5f19f875bd8ba" style="display:none" target="_blank">https://zenn.dev/turing_motors/articles/f5f19f875bd8ba</a></p>


Discussion