<p data-line="0" class="code-line">前回の記事で、EVO-X2 (Ryzen AI Max+ 395) に Ubuntu 24.04＋ROCm を導入しました。今回は、ROCm（HIP/rocBLAS）有効の llama.cpp をビルドしてGPU実行できる状態にして、ローカルLLMを動作させ、モニタを実施します。</p>
<p data-line="2" class="code-line"><span class="embed-block zenn-embedded zenn-embedded-card"><iframe id="zenn-embedded__3386aade285b4" src="https://embed.zenn.studio/card#zenn-embedded__3386aade285b4" data-content="https%3A%2F%2Fwww.amazon.co.jp%2Fdp%2FB0F5H9KS9R%3Fth%3D1%26linkCode%3Dll1%26tag%3Dnabelabs-22%26linkId%3D03e0d0c8626fd1b723946524a68fbffb%26language%3Dja_JP%26ref_%3Das_li_ss_tl" frameborder="0" scrolling="no" loading="lazy"></iframe></span><a href="https://www.amazon.co.jp/dp/B0F5H9KS9R?th=1&amp;linkCode=ll1&amp;tag=nabelabs-22&amp;linkId=03e0d0c8626fd1b723946524a68fbffb&amp;language=ja_JP&amp;ref_=as_li_ss_tl" style="display:none" target="_blank" rel="nofollow noopener noreferrer">https://www.amazon.co.jp/dp/B0F5H9KS9R?th=1&amp;linkCode=ll1&amp;tag=nabelabs-22&amp;linkId=03e0d0c8626fd1b723946524a68fbffb&amp;language=ja_JP&amp;ref_=as_li_ss_tl</a></p>
<h1 id="1.-%E3%82%B4%E3%83%BC%E3%83%AB" data-line="3" class="code-line">
<a class="header-anchor-link" href="#1.-%E3%82%B4%E3%83%BC%E3%83%AB" aria-hidden="true"></a> 1. ゴール</h1>
<ul data-line="4" class="code-line">
<li data-line="4" class="code-line">Python 仮想環境を作って モデル取得系を隔離</li>
<li data-line="5" class="code-line">Hugging Face から Phi-3.5 Mini (GGUF) をダウンロード</li>
<li data-line="6" class="code-line">llama.cpp を GPUオフロード段階的に 実行（-ngl 1 → 8 → 16 → 32）</li>
<li data-line="7" class="code-line">rocm-smi で温度／電力／利用率／VRAM を 軽量モニタ</li>
<li data-line="8" class="code-line">生成速度（tok/s）を比較し確認</li>
</ul>
<h1 id="2.-python-%E4%BB%AE%E6%83%B3%E7%92%B0%E5%A2%83%E3%81%AE%E3%82%BB%E3%83%83%E3%83%88%E3%82%A2%E3%83%83%E3%83%97" data-line="9" class="code-line">
<a class="header-anchor-link" href="#2.-python-%E4%BB%AE%E6%83%B3%E7%92%B0%E5%A2%83%E3%81%AE%E3%82%BB%E3%83%83%E3%83%88%E3%82%A2%E3%83%83%E3%83%97" aria-hidden="true"></a> 2. Python 仮想環境のセットアップ</h1>
<p data-line="10" class="code-line">いろいろ始める前に、Python仮想環境(venv)を整備します。なぜかというと、</p>
<ul data-line="11" class="code-line">
<li data-line="11" class="code-line">huggingface_hub や hf_transfer を安全に更新できる</li>
<li data-line="12" class="code-line">依存衝突の回避 →　プロジェクトごとに分離</li>
<li data-line="13" class="code-line">再現性の担保　→　壊れたら作り直しが速い</li>
<li data-line="14" class="code-line">sudo pip を避け、安全にユーザー権限で完結</li>
</ul>
<p data-line="16" class="code-line">という理由からです。</p>
<h2 id="%E4%BD%9C%E6%88%90%EF%BC%86%E6%9C%89%E5%8A%B9%E5%8C%96%EF%BC%86%E3%83%84%E3%83%BC%E3%83%AB%E6%9B%B4%E6%96%B0" data-line="17" class="code-line">
<a class="header-anchor-link" href="#%E4%BD%9C%E6%88%90%EF%BC%86%E6%9C%89%E5%8A%B9%E5%8C%96%EF%BC%86%E3%83%84%E3%83%BC%E3%83%AB%E6%9B%B4%E6%96%B0" aria-hidden="true"></a> 作成＆有効化＆ツール更新</h2>
<div class="code-block-container"><pre><code class="code-line" data-line="18"># 作成
python3 -m venv ~/venvs/evox2-llm

# 有効化（プロンプト先頭に (evox2-llm) が付けばOK）
source ~/venvs/evox2-llm/bin/activate

# ツール更新
(evox2-llm) python -m pip install -U pip setuptools wheel
</code></pre></div><h1 id="3.-%E3%83%A2%E3%83%87%E3%83%AB%E5%8F%96%E5%BE%97" data-line="28" class="code-line">
<a class="header-anchor-link" href="#3.-%E3%83%A2%E3%83%87%E3%83%AB%E5%8F%96%E5%BE%97" aria-hidden="true"></a> 3. モデル取得</h1>
<p data-line="30" class="code-line">Hugging Face Hub, Python API 直呼び<br>
CLI は PATH 依存で詰まりがちなので、<strong>Python API を推奨</strong>。大容量転送高速化を有効化。</p>
<div class="code-block-container"><pre><code class="code-line" data-line="32"># 転送高速化
(evox2-llm) export HF_HUB_ENABLE_HF_TRANSFER=1
# モデル保存先
(evox2-llm) mkdir -p ~/models/phi-3.5-mini-gguf
</code></pre></div><p data-line="38" class="code-line">GGUFモデルを取得します。</p>
<div class="code-block-container"><pre><code class="code-line" data-line="39">(evox2-llm) python - &lt;&lt;'PY'
from huggingface_hub import hf_hub_download
dst = hf_hub_download(
    repo_id="microsoft/Phi-3.5-mini-instruct-GGUF",
    filename="Phi-3.5-mini-instruct-IQ4_XS.gguf",
    local_dir="/home/nabe/models/phi-3.5-mini-gguf",
)
print("DOWNLOADED_TO:", dst)
PY
</code></pre></div><p data-line="50" class="code-line">成功した場合のログ</p>
<div class="code-block-container"><pre><code class="code-line" data-line="51">DOWNLOADED_TO: /home/nabe/models/phi-3.5-mini-gguf/Phi-3.5-mini-instruct-IQ4_XS.gguf
$ ls -lh ~/models/phi-3.5-mini-gguf
-rw-rw-r-- 1 nabe nabe 2.0G ... Phi-3.5-mini-instruct-IQ4_XS.gguf
</code></pre></div><p data-line="56" class="code-line">目的の GGUF が 2.0GB 前後で落ちていればOK</p>
<h1 id="4.-llama.cpp-%E3%81%AE%E3%83%93%E3%83%AB%E3%83%89%EF%BC%88rocm%2Fhip-%E5%AF%BE%E5%BF%9C%EF%BC%89" data-line="58" class="code-line">
<a class="header-anchor-link" href="#4.-llama.cpp-%E3%81%AE%E3%83%93%E3%83%AB%E3%83%89%EF%BC%88rocm%2Fhip-%E5%AF%BE%E5%BF%9C%EF%BC%89" aria-hidden="true"></a> 4. llama.cpp のビルド（ROCm/HIP 対応）</h1>
<p data-line="59" class="code-line">Githubから取得して、ビルド用ディレクトリを作成。</p>
<div class="code-block-container"><pre><code class="code-line" data-line="60">git clone https://github.com/ggerganov/llama.cpp.git
cd ~/llama.cpp
mkdir -p build &amp;&amp; cd build
</code></pre></div><p data-line="65" class="code-line">ROCm (HIPBLAS) を有効にして CMake を実行<br>
GGML_HIP=ON と GGML_HIPBLAS=ON が鍵。ROCM_PATH は通常 /opt/rocm。</p>
<div class="code-block-container"><pre><code class="code-line" data-line="67">cmake \
  -DGGML_HIP=ON \
  -DGGML_HIPBLAS=ON \
  -DCMAKE_BUILD_TYPE=Release \
  -DCMAKE_PREFIX_PATH=/opt/rocm \
  ..
make -j$(nproc)
</code></pre></div><ul data-line="76" class="code-line">
<li data-line="76" class="code-line">補足：libggml-hipblas.so が必ずできるとは限らない（静的リンクや実行ファイル内に組み込まれる構成もある）。実行時ログで ROCm 利用が出ていればOK。</li>
</ul>
<p data-line="78" class="code-line">実行時に見るべきログ（判定の決め手）</p>
<div class="code-block-container"><pre><code class="code-line" data-line="79">ggml_cuda_init: found 1 ROCm devices:
  Device 0: AMD Radeon Graphics, gfx1151 ...
...
llama_model_load_from_file_impl: using device ROCm0 (AMD Radeon Graphics) ...
...
load_tensors: offloading N/33 layers to GPU
</code></pre></div><p data-line="87" class="code-line">これが出れば ROCm バックエンドで実行できています。</p>
<h1 id="5.-%E6%AE%B5%E9%9A%8E%E7%9A%84-gpu-%E3%82%AA%E3%83%95%E3%83%AD%E3%83%BC%E3%83%89%EF%BC%88-ngl-1%E2%86%928%E2%86%9216%E2%86%9232%EF%BC%89" data-line="89" class="code-line">
<a class="header-anchor-link" href="#5.-%E6%AE%B5%E9%9A%8E%E7%9A%84-gpu-%E3%82%AA%E3%83%95%E3%83%AD%E3%83%BC%E3%83%89%EF%BC%88-ngl-1%E2%86%928%E2%86%9216%E2%86%9232%EF%BC%89" aria-hidden="true"></a> 5. 段階的 GPU オフロード（-ngl 1→8→16→32）</h1>
<p data-line="90" class="code-line">-ngl（GPUに載せる層数）を増やし、tok/s が伸びるか、電力・温度・VRAMはどうなるかを確認していきます。</p>
<h3 id="%E5%85%B1%E9%80%9A%E6%9D%A1%E4%BB%B6%EF%BC%9A" data-line="91" class="code-line">
<a class="header-anchor-link" href="#%E5%85%B1%E9%80%9A%E6%9D%A1%E4%BB%B6%EF%BC%9A" aria-hidden="true"></a> 共通条件：</h3>
<ul data-line="92" class="code-line">
<li data-line="92" class="code-line">モデル = Phi-3.5-mini-instruct-IQ4_XS.gguf（約1.92GiB）</li>
<li data-line="93" class="code-line">スレッド = -t 8、プロンプトは短文（日本語一文応答）</li>
</ul>
<div class="code-block-container"><pre><code class="code-line" data-line="95">~/llama.cpp/build/bin/llama-cli \
  -m ~/models/phi-3.5-mini-gguf/Phi-3.5-mini-instruct-IQ4_XS.gguf \
  -p "1文で自己紹介。" \
  -ngl &lt;1|8|16|32&gt; -t 8
</code></pre></div><p data-line="101" class="code-line">実行ログ（抜粋）</p>
<div class="code-block-container"><pre><code class="code-line" data-line="102"># 起動時に ROCm を認識：
ggml_cuda_init: found 1 ROCm devices:
  Device 0: AMD Radeon Graphics, gfx1151 ...
llama_model_load_from_file_impl: using device ROCm0 ... - 65370 MiB free
</code></pre></div><p data-line="108" class="code-line">最終行に実際の出力</p>
<div class="code-block-container"><pre><code class="code-line" data-line="109">== Running in interactive mode. ==
＜略＞
1文で自己紹介。

私はAIとして、自己紹介する中で人間の形ではないが、情報を提供し、質問に答え、
タスクを支援するプログラムです。
</code></pre></div><p data-line="117" class="code-line">動きました。（パチパチ）<br>
次に、GPUにオフロードを増やすとスループットがどうなるか実測します。</p>
<div class="code-block-container"><pre><code class="code-line" data-line="119"># 1秒間隔で温度/電力/利用率/VRAM変化を見るシンプル版
while true; do
  ts=$(date '+%H:%M:%S')
  /opt/rocm/bin/rocm-smi --showtemp --showpower --showuse --showmeminfo vram -d 0 \
   | awk -v ts="$ts" '
     /Temperature $Sensor edge$/{temp=$NF}
     /Current Socket Graphics Package Power/{pwr=$(NF)}
     /GPU use/{use=$(NF)}
     /Total VRAM Memory Used/{vram=$(NF)}
     END{printf "%s Temp=%s Power=%sW Use=%s VRAM=%s\n", ts,temp,pwr,use,vram}'
  sleep 1
done
</code></pre></div><p data-line="133" class="code-line">実測スループット</p>
<div class="code-block-container"><pre><code class="code-line" data-line="134">-ngl 1
eval time ≈ 5615 ms / 255 runs → 約 45 tok/s
-ngl 8
eval time ≈ 5229 ms / 255 runs → 約 49 tok/s
-ngl 16
eval time ≈ 4596 ms / 255 runs → 約 55 tok/s
-ngl 32
eval time ≈ 3159 ms / 255 runs → 約 81 tok/s
</code></pre></div><p data-line="144" class="code-line">結果を表にまとめました。</p>
<table data-line="145" class="code-line">
<thead data-line="145" class="code-line">
<tr data-line="145" class="code-line">
<th style="text-align:right">-ngl</th>
<th style="text-align:right">tok/s</th>
<th style="text-align:right">VRAM使用目安</th>
<th style="text-align:right">GPU利用率目安</th>
<th style="text-align:right">電力ピーク目安</th>
</tr>
</thead>
<tbody data-line="147" class="code-line">
<tr data-line="147" class="code-line">
<td style="text-align:right">1</td>
<td style="text-align:right"><strong>45.4</strong></td>
<td style="text-align:right">&lt; 0.2 GB 相当</td>
<td style="text-align:right">〜4%</td>
<td style="text-align:right">〜112 W</td>
</tr>
<tr data-line="148" class="code-line">
<td style="text-align:right">8</td>
<td style="text-align:right"><strong>48.8</strong></td>
<td style="text-align:right">~1.41 GB</td>
<td style="text-align:right">〜15%</td>
<td style="text-align:right">〜117 W</td>
</tr>
<tr data-line="149" class="code-line">
<td style="text-align:right">16</td>
<td style="text-align:right"><strong>55.5</strong></td>
<td style="text-align:right">~2.30 GB</td>
<td style="text-align:right">〜33%</td>
<td style="text-align:right">〜113 W</td>
</tr>
<tr data-line="150" class="code-line">
<td style="text-align:right">32</td>
<td style="text-align:right"><strong>80.7</strong></td>
<td style="text-align:right">~4.06 GB</td>
<td style="text-align:right">80–87%</td>
<td style="text-align:right">80〜90 W 帯</td>
</tr>
</tbody>
</table>
<p data-line="152" class="code-line">おー！なかなかいい値じゃないですか。</p>
<p data-line="154" class="code-line">チャッピーの分析では</p>
<ul data-line="155" class="code-line">
<li data-line="155" class="code-line">-ngl を上げるほど tok/s は素直に向上</li>
<li data-line="156" class="code-line">VRAM使用量は段階的に増加。EVO-X2のiGPU（大容量UMA）のおかげで 4GB級まで余裕あり</li>
<li data-line="157" class="code-line">電力は “必ずしも直線的に増えない”。-ngl 32 は効率が良く、高いtok/sに対し消費は抑えめという印象。</li>
</ul>
<h1 id="6.-%E3%81%BE%E3%81%A8%E3%82%81%EF%BC%88%E4%BB%8A%E5%9B%9E%E3%81%AE%E5%88%B0%E9%81%94%E7%82%B9%EF%BC%89" data-line="159" class="code-line">
<a class="header-anchor-link" href="#6.-%E3%81%BE%E3%81%A8%E3%82%81%EF%BC%88%E4%BB%8A%E5%9B%9E%E3%81%AE%E5%88%B0%E9%81%94%E7%82%B9%EF%BC%89" aria-hidden="true"></a> 6. まとめ（今回の到達点）</h1>
<ul data-line="160" class="code-line">
<li data-line="160" class="code-line">ROCm（HIP）有効の llama.cpp で EVO-X2 の iGPU を使って Phi-3.5-mini（IQ4_XS）を推論</li>
<li data-line="161" class="code-line">-ngl 1→32 に連れて 45.4 → 80.7 tok/sへ改善。VRAM/電力/温度の挙動も把握</li>
<li data-line="162" class="code-line">
</ul>
<p data-line="163" class="code-line"><span class="embed-block zenn-embedded zenn-embedded-card"><iframe id="zenn-embedded__3b5e0e065b145" src="https://embed.zenn.studio/card#zenn-embedded__3b5e0e065b145" data-content="https%3A%2F%2Fwww.amazon.co.jp%2Fdp%2FB0F5H9KS9R%3Fth%3D1%26linkCode%3Dll1%26tag%3Dnabelabs-22%26linkId%3D03e0d0c8626fd1b723946524a68fbffb%26language%3Dja_JP%26ref_%3Das_li_ss_tl" frameborder="0" scrolling="no" loading="lazy"></iframe></span><a href="https://www.amazon.co.jp/dp/B0F5H9KS9R?th=1&amp;linkCode=ll1&amp;tag=nabelabs-22&amp;linkId=03e0d0c8626fd1b723946524a68fbffb&amp;language=ja_JP&amp;ref_=as_li_ss_tl" style="display:none" target="_blank" rel="nofollow noopener noreferrer">https://www.amazon.co.jp/dp/B0F5H9KS9R?th=1&amp;linkCode=ll1&amp;tag=nabelabs-22&amp;linkId=03e0d0c8626fd1b723946524a68fbffb&amp;language=ja_JP&amp;ref_=as_li_ss_tl</a></p>


GMKtec EVO-X2でllama.cppをビルドしてローカルLLMを動かす

2. Python 仮想環境のセットアップ

4. llama.cpp のビルド（ROCm/HIP 対応）

5. 段階的 GPU オフロード（-ngl 1→8→16→32）

Discussion