🤖

【2025年12月】KoboldCPP完全導入ガイド - ローカルでNSFW対応LLMを動かす

に公開

この記事でできること

  • ✅ KoboldCPPをWindows PCにインストール
  • ✅ NSFW対応の大規模言語モデル(LLM)を動作させる
  • ✅ GPU最適化設定で高速化
  • ✅ SillyTavernとの連携準備

所要時間:約45分(モデルダウンロード時間除く)


なぜローカルLLMが必要か

クラウドLLMの制限

サービス NSFW 月額
ChatGPT ❌ 厳禁 $20
Claude ❌ 厳禁 $20
Gemini ❌ 厳禁 無料〜
Copilot ❌ 厳禁 無料〜

すべてのメジャーなクラウドLLMは、NSFWコンテンツを禁止しています。

ローカルLLMなら

  • 完全に自由 - 規約なし、検閲なし
  • プライバシー - データは外部に送信されない
  • 月額0円 - 電気代のみ
  • オフライン - ネット接続不要

前提条件

項目 最低 推奨
OS Windows 10/11 Windows 11
GPU RTX 2060 6GB RTX 3060 12GB以上
RAM 32GB 64GB以上
ストレージ 50GB空き 100GB空き

STEP 1: KoboldCPPのダウンロード

1-1. 公式リリースページにアクセス

https://github.com/LostRuins/koboldcpp/releases

1-2. 最新版をダウンロード

ページ内で以下のファイルをダウンロード:

koboldcpp.exe

サイズ: 約50MB(単体実行ファイル)

1-3. 配置場所

ダウンロードしたファイルを以下に配置:

C:\AI-Stack\KoboldCPP\koboldcpp.exe

1-4. modelsフォルダを作成

C:\AI-Stack\KoboldCPP\models\

このフォルダにLLMモデルを配置します。


STEP 2: LLMモデルのダウンロード

推奨モデル: Midnight Miqu 70B

2025年12月現在、NSFW対応で最高品質のモデルです。

スペック別の選択肢

モデル サイズ 必要RAM 必要VRAM
Midnight Miqu 70B Q4_K_M 約40GB 48GB+ 8GB+
Midnight Miqu 70B Q5_K_M 約45GB 56GB+ 10GB+
Midnight Miqu 103B Q4_K_M 約60GB 72GB+ 12GB+

あなたのスペックに合ったモデル

あなたのRAM 推奨モデル
32GB 70B Q4_K_M(ギリギリ)
64GB 70B Q5_K_M
128GB 103B Q4_K_M も可能

ダウンロード元

HuggingFaceで検索:

https://huggingface.co/

検索ワード: Midnight Miqu 70B GGUF

ダウンロードファイル例:

Midnight-Miqu-70B-v1.5.Q5_K_M.gguf

配置場所

C:\AI-Stack\KoboldCPP\models\Midnight-Miqu-70B-v1.5.Q5_K_M.gguf

STEP 3: 起動バッチファイルの作成

毎回コマンドを打つのは面倒なので、バッチファイルを作成します。

3-1. 新規テキストファイルを作成

C:\AI-Stack\Start-KoboldCPP.bat

3-2. 以下の内容をコピペ

@echo off
echo ========================================
echo    KoboldCPP + Midnight Miqu 70B
echo ========================================
echo.

cd /d C:\AI-Stack\KoboldCPP

koboldcpp.exe ^
    --model "models\Midnight-Miqu-70B-v1.5.Q5_K_M.gguf" ^
    --contextsize 8192 ^
    --gpulayers 25 ^
    --quantkv 1 ^
    --usecublas normal ^
    --port 5001

pause

パラメータ解説

パラメータ 説明 推奨値
--model モデルファイルのパス 自分のファイル名に合わせる
--contextsize 会話の長さ上限 4096〜16384
--gpulayers GPUにオフロードするレイヤー数 VRAM次第
--quantkv KVキャッシュ量子化 1(メモリ節約)
--usecublas CUDA高速化 normal
--port 待ち受けポート 5001

STEP 4: GPU設定の最適化

gpulayersの調整

GPUにオフロードするレイヤー数を増やすと高速化しますが、VRAMを消費します。

VRAM gpulayers目安 速度
6GB 10〜15 遅い
8GB 15〜20 普通
12GB 20〜30 快適
16GB 25〜35 快適
24GB 35〜全レイヤー 爆速

メモリ不足時の対策

@echo off
koboldcpp.exe ^
    --model "models\Midnight-Miqu-70B-v1.5.Q5_K_M.gguf" ^
    --contextsize 4096 ^
    --gpulayers 15 ^
    --quantkv 1 ^
    --usecublas normal ^
    --lowvram ^
    --port 5001
pause

追加オプション:

  • --lowvram: メモリ使用量を抑える
  • --contextsize 4096: コンテキストを短くする

STEP 5: 初回起動

5-1. バッチファイルを実行

C:\AI-Stack\Start-KoboldCPP.bat

をダブルクリック

5-2. ロード完了を待つ

コンソールに以下のような表示が出るまで待ちます(数分かかる場合あり):

Load Model OK
...
Waiting for connections on http://127.0.0.1:5001

5-3. ブラウザで確認

以下にアクセス:

http://127.0.0.1:5001

KoboldAIのWebUIが表示されれば成功!


STEP 6: 動作テスト

6-1. シンプルなテスト

KoboldAIのUI上部のテキストエリアに以下を入力:

You are a helpful assistant. Tell me a short story about a cat.

「Submit」ボタンをクリック

6-2. 生成を確認

数秒〜数十秒で返答が生成されます。

テキストが生成されれば、LLMは正常に動作しています!


STEP 7: API設定(SillyTavern連携用)

SillyTavernと連携するために、APIエンドポイントを確認します。

エンドポイント

http://127.0.0.1:5001

対応API形式

KoboldCPPは以下のAPIに対応:

  • KoboldAI API(ネイティブ)
  • OpenAI互換API

SillyTavernでは「KoboldAI」として接続します。


高度な設定

マルチターン会話の改善

koboldcpp.exe ^
    --model "models\Midnight-Miqu-70B-v1.5.Q5_K_M.gguf" ^
    --contextsize 8192 ^
    --gpulayers 30 ^
    --quantkv 1 ^
    --usecublas normal ^
    --smartcontext ^
    --port 5001

--smartcontext: 長い会話でも重要な文脈を保持

ストリーミング出力

koboldcpp.exe ^
    ... ^
    --stream ^
    --port 5001

--stream: リアルタイムで文字が表示される

複数GPU対応

2枚以上のGPUがある場合:

koboldcpp.exe ^
    ... ^
    --usecublas normal --tensor_split 10 10 ^
    --port 5001

トラブルシューティング

「out of memory」エラー

原因: RAM/VRAMが不足

対策:

  1. gpulayers を下げる
  2. --contextsize を 4096 に下げる
  3. --quantkv 1 を確認
  4. 他のアプリを閉じる
  5. より小さいモデルを使う(70B → 33B など)

起動が非常に遅い

原因: モデルロードに時間がかかっている

対策:

  • 初回起動は5〜10分かかる場合があります
  • SSDに配置すると高速化
  • --mmap オプションで高速化

生成速度が遅い

原因: GPU活用が不十分

対策:

  1. gpulayers を増やす(VRAM許す限り)
  2. --usecublas normal を確認
  3. NVIDIAドライバを最新に更新

文字化け/意味不明な出力

原因: モデルが壊れている or 設定が合わない

対策:

  1. モデルを再ダウンロード
  2. --contextsize を下げる
  3. 別のモデルを試す

代替モデル

Midnight Miqu以外の選択肢:

モデル 特徴 サイズ
WizardLM-2 汎用高性能 8B〜70B
Nous Hermes 2 バランス良い 7B〜70B
Llama 3.1 Meta公式 8B〜405B
Mixtral 8x7B MoEで軽量 約25GB

次のステップ

KoboldCPPが動作したら、次は以下へ:

👉 SillyTavern導入ガイド - 美しいチャットUIでKoboldCPPと連携


まとめ

ステップ 内容 所要時間
1 KoboldCPPダウンロード 5分
2 モデルダウンロード 1〜2時間
3 バッチファイル作成 5分
4 GPU設定調整 10分
5 初回起動 5〜10分
6 動作テスト 5分

合計: 約45分(ダウンロード時間除く)でローカルLLM環境構築完了!


参考リンク


この記事が役に立ったら いいね お願いします!
質問はコメントでどうぞ。

Discussion