🦙
【個人メモ】RTX4090+llama.cppでGPUオフロードできなかったので解決した
概要
RTX-4090環境でtext-generation-webui環境を構築していたところ、なぜかllama.cppのモデルでGPUオフロードできなかったので、調べて解決した。
やったこと
pytorchの最新化
nvcc -V
を行ったところ、CUDA12系だったのでpytorchを入れなおした。
pip install --pre torch --index-url https://download.pytorch.org/whl/nightly/cu121
これでも直らなかったので、torchではなくGPUオフロードの部分でトラブルが起こっていると判断。
cuBLASで再度llama-cpp-pythonを入れなおす
If you have 4090, you should use cuBLAS, not openBLAS, if you're on linux all you have to do is:
と書いてあったので、以下を行った。
pip uninstall llama-cpp-python
$env:CMAKE_ARGS="-DLLAMA_CUBLAS=on"
$env:FORCE_CMAKE=1
pip install llama-cpp-python --no-cache-dir
再度server.pyを起動したところ無事GPUオフロードに成功した。
Discussion