🤏
llama.cpp(with cuda) install
最近 llama.cpp でのNvidia GPUを使う方法が BLASからCUDA方式へ変わったらしい。
メモ用に記述。
specs
- win11 native insatll (No WSL/No docker)
- RTX 4090
- cuda 11.8
cmake install
- wingetをget
https://github.com/microsoft/winget-cli?tab=readme-ov-file#microsoft-store-recommended - winget install CMake(特権じゃないと失敗した)
手順
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
- ビルド
makeだとうまくいかなかったので、cmakeで実行
mkdir build
cd build
cmake .. -DLLAMA_CUDA=ON
cmake --build . --config Release -- -j #--で後ろのオプションを渡す。並列化
- バイナリコピー
cp bin/Release/main.exe ../../main.exe # CLI inference
cp bin/Release/main.exe ../../server.exe # HTTP web server用
- 起動
.\main.exe -m "/absolute_path/my_model" -ngl 35 -p "zenn.devとはなんですか?"
Discussion