vLLM/llama.cppの開発の進行状況

 Quantization
 vLLMGPTQ, AWQ, GGUFに対応。

Implement AWQ quantization support for LLaMA #1032, Sep 16, 2023

Add GPTQ support #916, Dec 15, 2023

[Core] Support loading GGUF model #5191, Aug 6, 2024

 Llama.cppGPTQ, AWQ, GGUFに対応。

Importer for GPTQ quantized LLaMA models #301, Mar 22, 2023

GGUF #2398, Aug 22, 2023

Add AWQ (Activation-aware Weight Quantization) for llama, llama2, mpt, and mistral models #4593, Dec 28, 2023

bilzard

 Speculative Decoding
 vLLMドキュメントに記載はあるが、「最適化が十分でない」と書かれている。

https://docs.vllm.ai/en/latest/features/spec_decode.html#speculative-decoding
ドキュメントのリンクにあるIssueはrepo側ではAug 6, 2024に完了しているっぽい。

Issue: https://github.com/vllm-project/vllm/issues/4630#


source: https://github.com/vllm-project/vllm/issues/4630#
以下開発時の資料
[1/9] https://github.com/vllm-project/vllm/pull/2336
開発計画:

https://docs.google.com/document/d/1rE4pr3IdspRw97XbImY4fS9IWYuJJ3HGtL7AdIKGrw8/edit?tab=t.0#heading=h.qijw1sdidrer
現時点で全体のタスクのうち6/8が終わっている。

 Llama.cpp機能追加(server):

https://github.com/ggerganov/llama.cpp/pull/10455
パフォーマンスが劣化するバグがあるっぽい

https://github.com/ggerganov/llama.cpp/issues/10664

bilzard

 Multiple Response
 vLLM対応ずみ。

 Llama.cppstatus: TODO

https://github.com/ggerganov/llama.cpp/issues/11142

bilzard

 Quantized KV-cache
 vLLM対応している。メモリ消費が約半分になる。現時点での実装ではlatencyの改善は得られない。

ref: https://docs.vllm.ai/en/latest/features/quantization/quantized_kvcache.html#quantized-kv-cache

bilzard

 get Logprobs
 vLLMsampling paramのlogprobで上位n+1を指定する（全部のtoken分取得できるわけではない）

ref: https://docs.vllm.ai/en/stable/api/inference_params.html

このスクラップは2025/02/11にクローズされました