Closed4
重みの量子化手法
- GGML(deprecated)、GGUFはllama.cpp向けの量子化フォーマット
- GPTQはHuggingFace Transformersで使われている量子化フォーマット
- ほとんどのモデルはTheBlokeが量子化して公開している
- 公開されていないモデルは自分で量子化する必要がある
- llama.cppもしくはTransformersで量子化モデルを作る
- AWQは両者より新しい量子化手法
GGML / GGUF
- GGはllama.cpp、whisper.cpp作者のGeorgi Gerganovさんのイニシャルにちなむ
- Q4 / Q8などは量子化のビット数、数字が小さいほどモデルサイズは小さいが性能は悪化
- Tokenizerはファイルに埋め込まれている
このスクラップは2024/04/15にクローズされました