GGML/GGUF/GPTQの違い

whisper.cppとかllama.cppとかのモデルを見てると、GGMLとかGGUFとかGPTQとか色々なフォーマットが出てくる。これまでは適当に雰囲気で選んでいたんだけど、ちゃんとを調べてみた。

GGML

ChatGPTやBardなどで利用されているチャットAIは、トレーニングだけでなく動作させるのにも数十～数百GBのVRAMなど非常に高いマシンスペックを要求するのが一般的です。そうした状況を変えるべく、GPU不要でチャットAIを動作させるライブラリ「GGML」の開発が進められています。
ggml.ai
http://ggml.ai/

ggerganov/ggml: Tensor library for machine learning
https://github.com/ggerganov/ggml
GGMLの特徴は下記の通り。
・Cで記述
・16bit floatをサポート
・4bit、5bit、8bitの整数での量子化をサポート
・自動微分
・「ADAM」「L-BFGS」という最適化アルゴリズムを搭載
・Appleシリコンへの対応＆最適化
・x86アーキテクチャではAVXおよびAVX2を使用
・WebAssemblyとWASM、SIMDによるウェブのサポート
・サードパーティーへの依存性なし
・動作中にメモリを使用しない
・ガイド付き言語出力をサポート

GGUF

「llama.cpp」で使われているGGMLファイルが「GGUF」という新フォーマットに変更されるとのこと。

フォーマット変更の要点

GGUFは、GGMLよりも拡張性の高いファイルフォーマット。「.bin」から「.gguf」になる。

これにより、Llama以外の言語モデル（falcon, rwkv, bloom, etc.）がllama.cppでサポートできるようになる。サポートするモデルは段階的に増える予定。

その他、プロンプトフォーマットをGGUF内に設定しておけるようなったり、rope-freq-baseやgqaなどの一部パラメータが不要になる予定。

破壊的変更であり、既存のggmlモデルは「GGUF #2398」のマージ後は使えなくなる（有志がGGML>GGUFの変換スクリプトを作成中）

GPTQ

ローカルLLMの量子化フォーマットとしては、llama.cpp(GGUF/GGML)とGPTQの2種類が広く使われている。

llama.cppによる量子化は、Readmeに説明されている手順で手軽に行える（CPUのみで処理が完結）。

Transformersモデルを量子化する🤗

AutoGPTQの統合

🤗 Transformers には、言語モデルで GPTQ 量子化を実行するための optimum API が統合されています。モデルを 8、4、3、さらには 2 ビットでロードおよび量子化することで、パフォーマンスを大幅に低下させることなく、推論速度を高速化します！これは、ほとんどの GPU ハードウェアでサポートされています。

https://note.com/npaka/n/nb4b1ef2f77cf

「AutoGPTQ」を使用すると、transformersモデルを量子化できます。「GPTQ-for-LLaMa」「Exllama」「llama.cpp」などのコミュニティの取り組みはLlamaアーキテクチャ専用の量子化手法を実装しているのに対し、「AutoGPTQ」は幅広いtransformers アーキテクチャをスムーズにカバーすることで人気を博しました。

量子化そのものの学習を行い、元のモデルと量子化後のモデルの性能誤差を限りなく小さくしている（量子化の最適化をしている）
量子化はざっくり言うと情報量を削減して軽量化すること
（本来であれば性能が劣化するのであるが、元のモデルとの性能差が小さくなるように最適化している）

kun432

雑に「量子化」の手法・モデル・フォーマットって感じで良さそう。
今からならGGMLは気にしなくて良さそう。
llama.cppならGGUF、TransformerならGPTQって感じ？

でいずれのフォーマットを使うにせよ、ローカルLLM試した人は1回はここを見てるはず。

https://huggingface.co/TheBloke

各READMEにちゃんと書いてあった（GPTQは書いてないけど）;p

kun432

その他

kun432

結局雰囲気やなー

kun432

AWQというのが出てきた様子

https://arxiv.org/abs/2306.00978

GPTQよりも性能が高い量子化アルゴリズムっぽい。

kun432

GPTQのキャリブレーションセット

GPTQ は、量子化モデルを使用する前に重みのキャリブレーションを必要とする量子化手法です。トランスフォーマーモデルを最初から量子化する場合は、量子化モデルを作成するまでに時間がかかる場合があります (facebook/opt-350mの場合、Google colabで約 5 分)。

モデルをロードして量子化するには、GPTQConfigを作成する必要があります。ビット数、量子化をキャリブレーションするためのデータセット、データセットを準備するためのモデルのトークナイザーを渡す必要があります。

なお、独自のデータセットを文字列のリストとして渡すこともできます。しかし、GPTQ論文のデータセットを使うことを強く推奨します。

GPTQにはキャリブレーションセットなるデータセットが必要になる。例えば

stabilityaiさんが公開している、japanese-stablelm-base-gamma-7bを、日本語のキャリブレーションセットで生成したGPTQモデルになります。

キャリブレーションセットはizumi-lab/wikipedia-ja-20230720から、 1kほどランダムサンプリングしています。

kun432

Importance Matrixは、llama.cppのikawrakow氏が取り組んでいる一連の量子化精度改善の中心的なアイディアのようで、特に2-3bitの極端な量子化においてモデルの劣化を大きく抑制する効果があるようです。

GPTQ量子化などと同じように量子化時にトレーニングデータセットを使うことで量子化の精度を改善する手法のようです。

kun432

ExLlamaV2

https://github.com/turboderp/exllama

LlamaのスタンドアロンPython/C++/CUDA実装で、4ビットGPTQウェイトで使用され、最新のGPUで高速でメモリ効率が良いように設計されています。

一応量子化手法ということでいいのかな、exl2という呼び方になってるっぽい。

kun432

KとかiMatrixについては今ならここを見ると良い
https://sc-bakushu.hatenablog.com/entry/2024/02/26/062547
https://www.nttpc.co.jp/gpu/article/technical19.html

kun432

diffusersをいろいろ調べてたら、他にもあることを知った。
https://github.com/pytorch/ao
PyTorchネイティブのトレーニングからサービングまでのモデル最適化
float8トレーニングでLlama-3.1-70Bの事前学習を1.5倍高速化
QATでLlama-3.2-3Bの量子化によるパープレクシティ劣化を77%回復
Llama-3-8Bをint4に量子化：推論速度1.89倍高速化、メモリ使用量58%削減
https://github.com/huggingface/optimum-quanto
🤗 Optimum Quanto は Optimum 向けの PyTorch 量子化バックエンドです。
汎用性と簡潔性を重視して設計されています：
全機能がイージーモードで利用可能（非トレース可能モデルに対応）
量子化モデルはあらゆるデバイスに配置可能（CUDAやMPSを含む）
量子化/非量子化スタブを自動挿入
量子化関数演算を自動挿入
量子化モジュールを自動挿入（対応モジュール一覧は下記参照）
浮動小数点モデルから動的・静的量子化モデルへのシームレスなワークフローを提供、
PyTorch weight_onlyおよび🤗 safetensorsと互換性のあるシリアライズ、
CUDAデバイス上での高速行列乗算（int8-int8、fp16-int4、bf16-int8、 bf16-int4）、
int2、int4、int8、float8重みをサポート、
int8およびfloat8活性化関数をサポート。