🤏

llama.cpp(with cuda) install

2024/04/03に公開

最近 llama.cpp でのNvidia GPUを使う方法が BLASからCUDA方式へ変わったらしい。
メモ用に記述。

specs

  • win11 native insatll (No WSL/No docker)
  • RTX 4090
  • cuda 11.8

cmake install

  1. wingetをget
    https://github.com/microsoft/winget-cli?tab=readme-ov-file#microsoft-store-recommended
  2. winget install CMake(特権じゃないと失敗した)

手順

  1. ダウンロード
    https://github.com/ggerganov/llama.cpp
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
  1. ビルド
    makeだとうまくいかなかったので、cmakeで実行
mkdir build
cd build
cmake .. -DLLAMA_CUDA=ON
cmake --build . --config Release -- -j #--で後ろのオプションを渡す。並列化
  1. バイナリコピー
cp bin/Release/main.exe ../../main.exe # CLI inference
cp bin/Release/main.exe ../../server.exe # HTTP web server用
  1. 起動
.\main.exe -m "/absolute_path/my_model" -ngl 35 -p "zenn.devとはなんですか?"

Discussion