🐷
ローカル LLM (Gemma 3 4B) セットアップ作業記録
ローカル LLM (Gemma 3 4B) セットアップ作業記録
執筆: ChatGPT, 編集: 昭和おじさん
環境: Ubuntu24 on WSL2 on Win11
✅ ゴール
-
llama.cpp
を CUDA 対応でビルド -
gemma-3-4b-it-q4_0.gguf
を使ってローカルで日本語チャット -
最小構成で CLI による推論を動作確認
参考にしたURL
🛠️ 作業ディレクトリ構成
最終的に以下のように移動・整理:
~/dev/llama.cpp ← ビルド済み llama.cpp 本体
~/dev/llama.cpp/models/gemma-3-4b-it-q4_0.gguf ← モデル本体
環境確認
nvidia-smi # GPU認識(CUDAドライバOK)
nvcc --version # CUDA Toolkitが有効
cmake --version # v3.18 以上推奨
1. llama.cpp クローンと CUDA ビルド
$ git clone https://github.com/ggerganov/llama.cpp.git
$ cd llama.cpp
$ cmake -B build -DGGML_CUDA=ON
$ cmake --build build --config Release
✅ 補足
-
libcurl4-openssl-dev
がなく CMake でエラー → 以下で解決:
$ sudo apt install libcurl4-openssl-dev
2. モデルのダウンロード
$ cd models
$ wget https://huggingface.co/google/gemma-3-4b-it-qat-q4_0-gguf/resolve/main/gemma-3-4b-it-q4_0.gguf
→ 約 3.0GB の gemma-3-4b-it-q4_0.gguf
を取得
3. 実行 CLI の選定
llama-mtmd-cli
を使って --interactive
実行 → エラー
❌ 失敗:llama-mtmd-cli
はマルチモーダルようだった模様。
ERR: Missing --mmproj argument
llama-cli
を使用
✅ 解決:$ ./build/bin/llama-cli \
-m models/gemma-3-4b-it-q4_0.gguf \
--chat-template gemma
→ >>
プロンプト表示、自然な日本語で応答
4. テスト結果
>> はろにちは。 do you understand or use Japanese?
→ 日本語で自然な応答を確認
✅ 成果
-
CUDA 対応 llama.cpp をビルド成功
-
Gemma 3 4B モデル(Q4_0)をローカル実行成功
-
CLI で自然な日本語対話に成功
Discussion