Open4
LLMの高速化手法及び技術選定について
LLMで推論を行う際に精度を落とさずにより高速に推論できる技術の調査して、技術選定時の参考にする
プラットフォームは、以下を想定
- linux(ubuntu)
- Windows(OS:11) ,GPUは最大でも4090の一台
- Max(M1)
評価によると、単一のNVIDIA RTX 4090 GPU上で、様々なLLM(OPT-175Bを含む)において、平均13.20トークン/秒、ピーク29.08トークン/秒のトークン生成レートを達成しました。
Google ColobのA100を使用.70Bが 5.64 トークン/秒でVRAMも33.3GBでした。
ngl=32 : 31トークン/秒