Closed4

重みの量子化手法

Koichiro MoriKoichiro Mori

https://note.com/bakushu/n/n6c560265b994

  • GGML(deprecated)、GGUFはllama.cpp向けの量子化フォーマット
  • GPTQはHuggingFace Transformersで使われている量子化フォーマット
  • ほとんどのモデルはTheBlokeが量子化して公開している
  • 公開されていないモデルは自分で量子化する必要がある
  • llama.cppもしくはTransformersで量子化モデルを作る
  • AWQは両者より新しい量子化手法
このスクラップは1ヶ月前にクローズされました