Closed2024/04/15にクローズ4

重みの量子化手法

GGML（deprecated）、GGUFはllama.cpp向けの量子化フォーマット
GPTQはHuggingFace Transformersで使われている量子化フォーマット
ほとんどのモデルはTheBlokeが量子化して公開している
公開されていないモデルは自分で量子化する必要がある
llama.cppもしくはTransformersで量子化モデルを作る
AWQは両者より新しい量子化手法

GGML / GGUF

GGはllama.cpp、whisper.cpp作者のGeorgi Gerganovさんのイニシャルにちなむ
Q4 / Q8などは量子化のビット数、数字が小さいほどモデルサイズは小さいが性能は悪化
Tokenizerはファイルに埋め込まれている

このスクラップは2024/04/15にクローズされました