【2025年12月】KoboldCPP完全導入ガイド - ローカルでNSFW対応LLMを動かす
この記事でできること
- ✅ KoboldCPPをWindows PCにインストール
- ✅ NSFW対応の大規模言語モデル(LLM)を動作させる
- ✅ GPU最適化設定で高速化
- ✅ SillyTavernとの連携準備
所要時間:約45分(モデルダウンロード時間除く)
なぜローカルLLMが必要か
クラウドLLMの制限
| サービス | NSFW | 月額 |
|---|---|---|
| ChatGPT | ❌ 厳禁 | $20 |
| Claude | ❌ 厳禁 | $20 |
| Gemini | ❌ 厳禁 | 無料〜 |
| Copilot | ❌ 厳禁 | 無料〜 |
すべてのメジャーなクラウドLLMは、NSFWコンテンツを禁止しています。
ローカルLLMなら
- ✅ 完全に自由 - 規約なし、検閲なし
- ✅ プライバシー - データは外部に送信されない
- ✅ 月額0円 - 電気代のみ
- ✅ オフライン - ネット接続不要
前提条件
| 項目 | 最低 | 推奨 |
|---|---|---|
| OS | Windows 10/11 | Windows 11 |
| GPU | RTX 2060 6GB | RTX 3060 12GB以上 |
| RAM | 32GB | 64GB以上 |
| ストレージ | 50GB空き | 100GB空き |
STEP 1: KoboldCPPのダウンロード
1-1. 公式リリースページにアクセス
1-2. 最新版をダウンロード
ページ内で以下のファイルをダウンロード:
koboldcpp.exe
サイズ: 約50MB(単体実行ファイル)
1-3. 配置場所
ダウンロードしたファイルを以下に配置:
C:\AI-Stack\KoboldCPP\koboldcpp.exe
1-4. modelsフォルダを作成
C:\AI-Stack\KoboldCPP\models\
このフォルダにLLMモデルを配置します。
STEP 2: LLMモデルのダウンロード
推奨モデル: Midnight Miqu 70B
2025年12月現在、NSFW対応で最高品質のモデルです。
スペック別の選択肢
| モデル | サイズ | 必要RAM | 必要VRAM |
|---|---|---|---|
| Midnight Miqu 70B Q4_K_M | 約40GB | 48GB+ | 8GB+ |
| Midnight Miqu 70B Q5_K_M | 約45GB | 56GB+ | 10GB+ |
| Midnight Miqu 103B Q4_K_M | 約60GB | 72GB+ | 12GB+ |
あなたのスペックに合ったモデル
| あなたのRAM | 推奨モデル |
|---|---|
| 32GB | 70B Q4_K_M(ギリギリ) |
| 64GB | 70B Q5_K_M |
| 128GB | 103B Q4_K_M も可能 |
ダウンロード元
HuggingFaceで検索:
https://huggingface.co/
検索ワード: Midnight Miqu 70B GGUF
ダウンロードファイル例:
Midnight-Miqu-70B-v1.5.Q5_K_M.gguf
配置場所
C:\AI-Stack\KoboldCPP\models\Midnight-Miqu-70B-v1.5.Q5_K_M.gguf
STEP 3: 起動バッチファイルの作成
毎回コマンドを打つのは面倒なので、バッチファイルを作成します。
3-1. 新規テキストファイルを作成
C:\AI-Stack\Start-KoboldCPP.bat
3-2. 以下の内容をコピペ
@echo off
echo ========================================
echo KoboldCPP + Midnight Miqu 70B
echo ========================================
echo.
cd /d C:\AI-Stack\KoboldCPP
koboldcpp.exe ^
--model "models\Midnight-Miqu-70B-v1.5.Q5_K_M.gguf" ^
--contextsize 8192 ^
--gpulayers 25 ^
--quantkv 1 ^
--usecublas normal ^
--port 5001
pause
パラメータ解説
| パラメータ | 説明 | 推奨値 |
|---|---|---|
--model |
モデルファイルのパス | 自分のファイル名に合わせる |
--contextsize |
会話の長さ上限 | 4096〜16384 |
--gpulayers |
GPUにオフロードするレイヤー数 | VRAM次第 |
--quantkv |
KVキャッシュ量子化 | 1(メモリ節約) |
--usecublas |
CUDA高速化 | normal |
--port |
待ち受けポート | 5001 |
STEP 4: GPU設定の最適化
gpulayersの調整
GPUにオフロードするレイヤー数を増やすと高速化しますが、VRAMを消費します。
| VRAM | gpulayers目安 | 速度 |
|---|---|---|
| 6GB | 10〜15 | 遅い |
| 8GB | 15〜20 | 普通 |
| 12GB | 20〜30 | 快適 |
| 16GB | 25〜35 | 快適 |
| 24GB | 35〜全レイヤー | 爆速 |
メモリ不足時の対策
@echo off
koboldcpp.exe ^
--model "models\Midnight-Miqu-70B-v1.5.Q5_K_M.gguf" ^
--contextsize 4096 ^
--gpulayers 15 ^
--quantkv 1 ^
--usecublas normal ^
--lowvram ^
--port 5001
pause
追加オプション:
-
--lowvram: メモリ使用量を抑える -
--contextsize 4096: コンテキストを短くする
STEP 5: 初回起動
5-1. バッチファイルを実行
C:\AI-Stack\Start-KoboldCPP.bat
をダブルクリック
5-2. ロード完了を待つ
コンソールに以下のような表示が出るまで待ちます(数分かかる場合あり):
Load Model OK
...
Waiting for connections on http://127.0.0.1:5001
5-3. ブラウザで確認
以下にアクセス:
http://127.0.0.1:5001
KoboldAIのWebUIが表示されれば成功!
STEP 6: 動作テスト
6-1. シンプルなテスト
KoboldAIのUI上部のテキストエリアに以下を入力:
You are a helpful assistant. Tell me a short story about a cat.
「Submit」ボタンをクリック
6-2. 生成を確認
数秒〜数十秒で返答が生成されます。
テキストが生成されれば、LLMは正常に動作しています!
STEP 7: API設定(SillyTavern連携用)
SillyTavernと連携するために、APIエンドポイントを確認します。
エンドポイント
http://127.0.0.1:5001
対応API形式
KoboldCPPは以下のAPIに対応:
- KoboldAI API(ネイティブ)
- OpenAI互換API
SillyTavernでは「KoboldAI」として接続します。
高度な設定
マルチターン会話の改善
koboldcpp.exe ^
--model "models\Midnight-Miqu-70B-v1.5.Q5_K_M.gguf" ^
--contextsize 8192 ^
--gpulayers 30 ^
--quantkv 1 ^
--usecublas normal ^
--smartcontext ^
--port 5001
--smartcontext: 長い会話でも重要な文脈を保持
ストリーミング出力
koboldcpp.exe ^
... ^
--stream ^
--port 5001
--stream: リアルタイムで文字が表示される
複数GPU対応
2枚以上のGPUがある場合:
koboldcpp.exe ^
... ^
--usecublas normal --tensor_split 10 10 ^
--port 5001
トラブルシューティング
「out of memory」エラー
原因: RAM/VRAMが不足
対策:
-
gpulayersを下げる -
--contextsizeを 4096 に下げる -
--quantkv 1を確認 - 他のアプリを閉じる
- より小さいモデルを使う(70B → 33B など)
起動が非常に遅い
原因: モデルロードに時間がかかっている
対策:
- 初回起動は5〜10分かかる場合があります
- SSDに配置すると高速化
-
--mmapオプションで高速化
生成速度が遅い
原因: GPU活用が不十分
対策:
-
gpulayersを増やす(VRAM許す限り) -
--usecublas normalを確認 - NVIDIAドライバを最新に更新
文字化け/意味不明な出力
原因: モデルが壊れている or 設定が合わない
対策:
- モデルを再ダウンロード
-
--contextsizeを下げる - 別のモデルを試す
代替モデル
Midnight Miqu以外の選択肢:
| モデル | 特徴 | サイズ |
|---|---|---|
| WizardLM-2 | 汎用高性能 | 8B〜70B |
| Nous Hermes 2 | バランス良い | 7B〜70B |
| Llama 3.1 | Meta公式 | 8B〜405B |
| Mixtral 8x7B | MoEで軽量 | 約25GB |
次のステップ
KoboldCPPが動作したら、次は以下へ:
👉 SillyTavern導入ガイド - 美しいチャットUIでKoboldCPPと連携
まとめ
| ステップ | 内容 | 所要時間 |
|---|---|---|
| 1 | KoboldCPPダウンロード | 5分 |
| 2 | モデルダウンロード | 1〜2時間 |
| 3 | バッチファイル作成 | 5分 |
| 4 | GPU設定調整 | 10分 |
| 5 | 初回起動 | 5〜10分 |
| 6 | 動作テスト | 5分 |
合計: 約45分(ダウンロード時間除く)でローカルLLM環境構築完了!
参考リンク
- KoboldCPP公式: https://github.com/LostRuins/koboldcpp
- HuggingFace: https://huggingface.co/
- llama.cpp(エンジン): https://github.com/ggerganov/llama.cpp
この記事が役に立ったら いいね お願いします!
質問はコメントでどうぞ。
Discussion