🦙

【個人メモ】RTX4090+llama.cppでGPUオフロードできなかったので解決した

2023/09/05に公開

概要

RTX-4090環境でtext-generation-webui環境を構築していたところ、なぜかllama.cppのモデルでGPUオフロードできなかったので、調べて解決した。
https://zenn.dev/saldra/articles/619232a81f2705

やったこと

pytorchの最新化

nvcc -Vを行ったところ、CUDA12系だったのでpytorchを入れなおした。
pip install --pre torch --index-url https://download.pytorch.org/whl/nightly/cu121
これでも直らなかったので、torchではなくGPUオフロードの部分でトラブルが起こっていると判断。

cuBLASで再度llama-cpp-pythonを入れなおす

https://www.reddit.com/r/LocalLLaMA/comments/14gw5r7/gpu_offloading/?rdt=43729

If you have 4090, you should use cuBLAS, not openBLAS, if you're on linux all you have to do is:

と書いてあったので、以下を行った。

pip uninstall llama-cpp-python
$env:CMAKE_ARGS="-DLLAMA_CUBLAS=on"
$env:FORCE_CMAKE=1
pip install llama-cpp-python --no-cache-dir

再度server.pyを起動したところ無事GPUオフロードに成功した。

Discussion