🤖

【2025年12月】KoboldCPP完全導入ガイド - ローカルでNSFW対応LLMを動かす

2025/12/14に公開

 この記事でできること✅ KoboldCPPをWindows PCにインストール
✅ NSFW対応の大規模言語モデル（LLM）を動作させる
✅ GPU最適化設定で高速化
✅ SillyTavernとの連携準備
所要時間：約45分（モデルダウンロード時間除く）

 なぜローカルLLMが必要か
 クラウドLLMの制限

サービス
NSFW
月額


ChatGPT
❌ 厳禁
$20

Claude
❌ 厳禁
$20

Gemini
❌ 厳禁
無料〜

Copilot
❌ 厳禁
無料〜

すべてのメジャーなクラウドLLMは、NSFWコンテンツを禁止しています。

 ローカルLLMなら✅ 完全に自由 - 規約なし、検閲なし
✅ プライバシー - データは外部に送信されない
✅ 月額0円 - 電気代のみ
✅ オフライン - ネット接続不要

 前提条件

項目
最低
推奨


OS
Windows 10/11
Windows 11

GPU
RTX 2060 6GB
RTX 3060 12GB以上

RAM
32GB
64GB以上

ストレージ
50GB空き
100GB空き

!RAM重要: LLMはモデルサイズが大きいため、RAMが多いほど大きなモデルを動かせます。

70Bモデルには64GB以上推奨。

 STEP 1: KoboldCPPのダウンロード
 1-1. 公式リリースページにアクセスhttps://github.com/LostRuins/koboldcpp/releases

 1-2. 最新版をダウンロードページ内で以下のファイルをダウンロード：
koboldcpp.exe
サイズ: 約50MB（単体実行ファイル）
!nocuda 版ではなく、通常版を選んでください。NVIDIA GPUで高速化できます。

 1-3. 配置場所ダウンロードしたファイルを以下に配置：
C:\AI-Stack\KoboldCPP\koboldcpp.exe

 1-4. modelsフォルダを作成C:\AI-Stack\KoboldCPP\models\
このフォルダにLLMモデルを配置します。

 STEP 2: LLMモデルのダウンロード
 推奨モデル: Midnight Miqu 70B2025年12月現在、NSFW対応で最高品質のモデルです。

 スペック別の選択肢

モデル
サイズ
必要RAM
必要VRAM


Midnight Miqu 70B Q4_K_M
約40GB
48GB+
8GB+

Midnight Miqu 70B Q5_K_M
約45GB
56GB+
10GB+

Midnight Miqu 103B Q4_K_M
約60GB
72GB+
12GB+


 あなたのスペックに合ったモデル

あなたのRAM
推奨モデル


32GB
70B Q4_K_M（ギリギリ）

64GB
70B Q5_K_M

128GB
103B Q4_K_M も可能


 ダウンロード元HuggingFaceで検索：
https://huggingface.co/
検索ワード: Midnight Miqu 70B GGUF
ダウンロードファイル例:
Midnight-Miqu-70B-v1.5.Q5_K_M.gguf

 配置場所C:\AI-Stack\KoboldCPP\models\Midnight-Miqu-70B-v1.5.Q5_K_M.gguf
!ダウンロード時間: 光回線でも1〜2時間かかります。時間に余裕を持って。

 STEP 3: 起動バッチファイルの作成毎回コマンドを打つのは面倒なので、バッチファイルを作成します。

 3-1. 新規テキストファイルを作成C:\AI-Stack\Start-KoboldCPP.bat

 3-2. 以下の内容をコピペ@echo off
echo ========================================
echo    KoboldCPP + Midnight Miqu 70B
echo ========================================
echo.

cd /d C:\AI-Stack\KoboldCPP

koboldcpp.exe ^
    --model "models\Midnight-Miqu-70B-v1.5.Q5_K_M.gguf" ^
    --contextsize 8192 ^
    --gpulayers 25 ^
    --quantkv 1 ^
    --usecublas normal ^
    --port 5001

pause

 パラメータ解説

パラメータ
説明
推奨値


--model
モデルファイルのパス
自分のファイル名に合わせる

--contextsize
会話の長さ上限
4096〜16384

--gpulayers
GPUにオフロードするレイヤー数
VRAM次第

--quantkv
KVキャッシュ量子化
1（メモリ節約）

--usecublas
CUDA高速化
normal

--port
待ち受けポート
5001


 STEP 4: GPU設定の最適化
 gpulayersの調整GPUにオフロードするレイヤー数を増やすと高速化しますが、VRAMを消費します。


VRAM
gpulayers目安
速度


6GB
10〜15
遅い

8GB
15〜20
普通

12GB
20〜30
快適

16GB
25〜35
快適

24GB
35〜全レイヤー
爆速

!筆者環境（RTX 5060 Ti 16GB）では gpulayers 30 で快適に動作しています。

 メモリ不足時の対策@echo off
koboldcpp.exe ^
    --model "models\Midnight-Miqu-70B-v1.5.Q5_K_M.gguf" ^
    --contextsize 4096 ^
    --gpulayers 15 ^
    --quantkv 1 ^
    --usecublas normal ^
    --lowvram ^
    --port 5001
pause
追加オプション:

--lowvram: メモリ使用量を抑える

--contextsize 4096: コンテキストを短くする

 STEP 5: 初回起動
 5-1. バッチファイルを実行C:\AI-Stack\Start-KoboldCPP.bat
をダブルクリック

 5-2. ロード完了を待つコンソールに以下のような表示が出るまで待ちます（数分かかる場合あり）：
Load Model OK
...
Waiting for connections on http://127.0.0.1:5001

 5-3. ブラウザで確認以下にアクセス：
http://127.0.0.1:5001
KoboldAIのWebUIが表示されれば成功！

 STEP 6: 動作テスト
 6-1. シンプルなテストKoboldAIのUI上部のテキストエリアに以下を入力：
You are a helpful assistant. Tell me a short story about a cat.
「Submit」ボタンをクリック

 6-2. 生成を確認数秒〜数十秒で返答が生成されます。
テキストが生成されれば、LLMは正常に動作しています！

 STEP 7: API設定（SillyTavern連携用）SillyTavernと連携するために、APIエンドポイントを確認します。

 エンドポイントhttp://127.0.0.1:5001

 対応API形式KoboldCPPは以下のAPIに対応：
KoboldAI API（ネイティブ）
OpenAI互換API
SillyTavernでは「KoboldAI」として接続します。

 高度な設定
 マルチターン会話の改善koboldcpp.exe ^
    --model "models\Midnight-Miqu-70B-v1.5.Q5_K_M.gguf" ^
    --contextsize 8192 ^
    --gpulayers 30 ^
    --quantkv 1 ^
    --usecublas normal ^
    --smartcontext ^
    --port 5001
--smartcontext: 長い会話でも重要な文脈を保持

 ストリーミング出力koboldcpp.exe ^
    ... ^
    --stream ^
    --port 5001
--stream: リアルタイムで文字が表示される

 複数GPU対応2枚以上のGPUがある場合：
koboldcpp.exe ^
    ... ^
    --usecublas normal --tensor_split 10 10 ^
    --port 5001

 トラブルシューティング
 「out of memory」エラー原因: RAM/VRAMが不足
対策:

gpulayers を下げる

--contextsize を 4096 に下げる

--quantkv 1 を確認
他のアプリを閉じる
より小さいモデルを使う（70B → 33B など）

 起動が非常に遅い原因: モデルロードに時間がかかっている
対策:
初回起動は5〜10分かかる場合があります
SSDに配置すると高速化

--mmap オプションで高速化

 生成速度が遅い原因: GPU活用が不十分
対策:

gpulayers を増やす（VRAM許す限り）

--usecublas normal を確認
NVIDIAドライバを最新に更新

 文字化け/意味不明な出力原因: モデルが壊れている or 設定が合わない
対策:
モデルを再ダウンロード

--contextsize を下げる
別のモデルを試す

 代替モデルMidnight Miqu以外の選択肢：


モデル
特徴
サイズ


WizardLM-2
汎用高性能
8B〜70B

Nous Hermes 2
バランス良い
7B〜70B

Llama 3.1
Meta公式
8B〜405B

Mixtral 8x7B
MoEで軽量
約25GB

!NSFW対応が必要な場合は、Uncensoredモデルを探してください。

 次のステップKoboldCPPが動作したら、次は以下へ：
👉 SillyTavern導入ガイド - 美しいチャットUIでKoboldCPPと連携

 まとめ

ステップ
内容
所要時間


1
KoboldCPPダウンロード
5分

2
モデルダウンロード
1〜2時間

3
バッチファイル作成
5分

4
GPU設定調整
10分

5
初回起動
5〜10分

6
動作テスト
5分

合計: 約45分（ダウンロード時間除く）でローカルLLM環境構築完了！

 参考リンクKoboldCPP公式: https://github.com/LostRuins/koboldcpp
HuggingFace: https://huggingface.co/
llama.cpp（エンジン）: https://github.com/ggerganov/llama.cpp
この記事が役に立ったら いいね お願いします！

質問はコメントでどうぞ。

サービス	NSFW	月額
ChatGPT	❌ 厳禁	$20
Claude	❌ 厳禁	$20
Gemini	❌ 厳禁	無料〜
Copilot	❌ 厳禁	無料〜

項目	最低	推奨
OS	Windows 10/11	Windows 11
GPU	RTX 2060 6GB	RTX 3060 12GB以上
RAM	32GB	64GB以上
ストレージ	50GB空き	100GB空き

モデル	サイズ	必要RAM	必要VRAM
Midnight Miqu 70B Q4_K_M	約40GB	48GB+	8GB+
Midnight Miqu 70B Q5_K_M	約45GB	56GB+	10GB+
Midnight Miqu 103B Q4_K_M	約60GB	72GB+	12GB+

あなたのRAM	推奨モデル
32GB	70B Q4_K_M（ギリギリ）
64GB	70B Q5_K_M
128GB	103B Q4_K_M も可能

パラメータ	説明	推奨値
`--model`	モデルファイルのパス	自分のファイル名に合わせる
`--contextsize`	会話の長さ上限	4096〜16384
`--gpulayers`	GPUにオフロードするレイヤー数	VRAM次第
`--quantkv`	KVキャッシュ量子化	1（メモリ節約）
`--usecublas`	CUDA高速化	normal
`--port`	待ち受けポート	5001

VRAM	gpulayers目安	速度
6GB	10〜15	遅い
8GB	15〜20	普通
12GB	20〜30	快適
16GB	25〜35	快適
24GB	35〜全レイヤー	爆速

モデル	特徴	サイズ
WizardLM-2	汎用高性能	8B〜70B
Nous Hermes 2	バランス良い	7B〜70B
Llama 3.1	Meta公式	8B〜405B
Mixtral 8x7B	MoEで軽量	約25GB

ステップ	内容	所要時間
1	KoboldCPPダウンロード	5分
2	モデルダウンロード	1〜2時間
3	バッチファイル作成	5分
4	GPU設定調整	10分
5	初回起動	5〜10分
6	動作テスト	5分

この記事でできること

なぜローカルLLMが必要か

クラウドLLMの制限

ローカルLLMなら

前提条件

STEP 1: KoboldCPPのダウンロード

1-1. 公式リリースページにアクセス

1-2. 最新版をダウンロード

1-3. 配置場所

1-4. modelsフォルダを作成

STEP 2: LLMモデルのダウンロード

推奨モデル: Midnight Miqu 70B

スペック別の選択肢

あなたのスペックに合ったモデル

ダウンロード元

配置場所

STEP 3: 起動バッチファイルの作成

3-1. 新規テキストファイルを作成

3-2. 以下の内容をコピペ

パラメータ解説

STEP 4: GPU設定の最適化

gpulayersの調整

メモリ不足時の対策

STEP 5: 初回起動

5-1. バッチファイルを実行

5-2. ロード完了を待つ

5-3. ブラウザで確認

STEP 6: 動作テスト

6-1. シンプルなテスト

6-2. 生成を確認

STEP 7: API設定（SillyTavern連携用）

エンドポイント

対応API形式

高度な設定

マルチターン会話の改善

ストリーミング出力

複数GPU対応

トラブルシューティング

「out of memory」エラー

起動が非常に遅い

生成速度が遅い

文字化け/意味不明な出力

代替モデル

次のステップ

まとめ

参考リンク

Discussion