<p>最近 llama.cpp でのNvidia GPUを使う方法が BLASからCUDA方式へ変わったらしい。<br>
メモ用に記述。</p>
<h2 id="specs">
<a class="header-anchor-link" href="#specs" aria-hidden="true"></a> specs</h2>
<ul>
<li>win11 native insatll (No WSL/No docker)</li>
<li>RTX 4090</li>
<li>cuda 11.8</li>
</ul>
<h2 id="cmake-install">
<a class="header-anchor-link" href="#cmake-install" aria-hidden="true"></a> cmake install</h2>
<ol>
<li>wingetをget<br>
<a href="https://github.com/microsoft/winget-cli?tab=readme-ov-file#microsoft-store-recommended" target="_blank" rel="nofollow noopener noreferrer">https://github.com/microsoft/winget-cli?tab=readme-ov-file#microsoft-store-recommended</a>
</li>
<li>winget install CMake(特権じゃないと失敗した)</li>
</ol>
<h2 id="%E6%89%8B%E9%A0%86">
<a class="header-anchor-link" href="#%E6%89%8B%E9%A0%86" aria-hidden="true"></a> 手順</h2>
<ol>
<li>ダウンロード<br>
<a href="https://github.com/ggerganov/llama.cpp" target="_blank" rel="nofollow noopener noreferrer">https://github.com/ggerganov/llama.cpp</a>
</li>
</ol>
<div class="code-block-container"><pre><code>git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
</code></pre></div><ol start="2">
<li>ビルド<br>
makeだとうまくいかなかったので、cmakeで実行</li>
</ol>
<div class="code-block-container"><pre><code>mkdir build
cd build
cmake .. -DLLAMA_CUDA=ON
cmake --build . --config Release -- -j #--で後ろのオプションを渡す。並列化
</code></pre></div><ol start="3">
<li>バイナリコピー</li>
</ol>
<div class="code-block-container"><pre><code>cp bin/Release/main.exe ../../main.exe # CLI inference
cp bin/Release/main.exe ../../server.exe # HTTP web server用
</code></pre></div><ol start="4">
<li>起動</li>
</ol>
<div class="code-block-container"><pre><code>.\main.exe -m "/absolute_path/my_model" -ngl 35 -p "zenn.devとはなんですか？"
</code></pre></div>

llama.cpp(with cuda) install

specs

cmake install

手順

Discussion