🐷

ローカル LLM (Gemma 3 4B) セットアップ作業記録

に公開

ローカル LLM (Gemma 3 4B) セットアップ作業記録

執筆: ChatGPT, 編集: 昭和おじさん

環境: Ubuntu24 on WSL2 on Win11

✅ ゴール

  • llama.cpp を CUDA 対応でビルド

  • gemma-3-4b-it-q4_0.gguf を使ってローカルで日本語チャット

  • 最小構成で CLI による推論を動作確認


参考にしたURL


🛠️ 作業ディレクトリ構成

最終的に以下のように移動・整理:

~/dev/llama.cpp  ← ビルド済み llama.cpp 本体
~/dev/llama.cpp/models/gemma-3-4b-it-q4_0.gguf  ← モデル本体

環境確認

nvidia-smi                 # GPU認識(CUDAドライバOK)
nvcc --version             # CUDA Toolkitが有効
cmake --version            # v3.18 以上推奨

1. llama.cpp クローンと CUDA ビルド

$ git clone https://github.com/ggerganov/llama.cpp.git
$ cd llama.cpp
$ cmake -B build -DGGML_CUDA=ON
$ cmake --build build --config Release

✅ 補足

  • libcurl4-openssl-dev がなく CMake でエラー → 以下で解決:
$ sudo apt install libcurl4-openssl-dev

2. モデルのダウンロード

$ cd models
$ wget https://huggingface.co/google/gemma-3-4b-it-qat-q4_0-gguf/resolve/main/gemma-3-4b-it-q4_0.gguf

→ 約 3.0GB の gemma-3-4b-it-q4_0.gguf を取得


3. 実行 CLI の選定

❌ 失敗:llama-mtmd-cli を使って --interactive 実行 → エラー

llama-mtmd-cli はマルチモーダルようだった模様。

ERR: Missing --mmproj argument

✅ 解決:llama-cli を使用

$ ./build/bin/llama-cli \
  -m models/gemma-3-4b-it-q4_0.gguf \
  --chat-template gemma

>> プロンプト表示、自然な日本語で応答


4. テスト結果

>> はろにちは。 do you understand or use Japanese?
→ 日本語で自然な応答を確認

✅ 成果

  • CUDA 対応 llama.cpp をビルド成功

  • Gemma 3 4B モデル(Q4_0)をローカル実行成功

  • CLI で自然な日本語対話に成功

Discussion