Closed5

vLLM/llama.cppの開発の進行状況

bilzardbilzard

Speculative Decoding

vLLM

ドキュメントに記載はあるが、「最適化が十分でない」と書かれている。
https://docs.vllm.ai/en/latest/features/spec_decode.html#speculative-decoding

ドキュメントのリンクにあるIssueはrepo側ではAug 6, 2024に完了しているっぽい。
Issue: https://github.com/vllm-project/vllm/issues/4630#


source: https://github.com/vllm-project/vllm/issues/4630#


以下開発時の資料

開発計画:
https://docs.google.com/document/d/1rE4pr3IdspRw97XbImY4fS9IWYuJJ3HGtL7AdIKGrw8/edit?tab=t.0#heading=h.qijw1sdidrer

現時点で全体のタスクのうち6/8が終わっている。

Llama.cpp

機能追加(server):
https://github.com/ggerganov/llama.cpp/pull/10455

パフォーマンスが劣化するバグがあるっぽい
https://github.com/ggerganov/llama.cpp/issues/10664

このスクラップは2025/02/11にクローズされました