📑

Local LLMモデル入門:基礎知識編

に公開

Local LLMにハマった

2025年1月、Roo Cline(今のRoo Code)の自律的なタスク遂行にめちゃくちゃ感動していて、その時は本当にアプリを雰囲気で複数並行して作らせていたので、気づいたらAPI課金額が5万円超えることもありました。当然動かないゴミができあがりました。

課金せずにガンガン動かしたいと思ってLocal LLMを試し始め、MacBook Air 24GBじゃ遅すぎて、結局Mac Mini、Mac Studio、RTX5060Ti 16GB搭載Win機と買い増していく沼にハマってしまいました(Macはリセールがいいから...)。せっかくなのでそれぞれのマシンでベンチマークを取っていたところ、そもそもLocal LLMのモデルについての知識が薄くてブログを書くにも手が止まってしまったので、まず基礎知識を身に付けるために、この記事を書きました。

Local LLM を試したいとなったときに、おそらく以下の順番で検討すれば最適なモデル・ツールが見つかると思うので、そうした順番で解説します。

  1. いま手持ちのPCが何であるか (Mac or Win/Linux)
  2. 用途によってモデルが決まる
  3. メモリがどのくらい搭載されているかでモデルのパラメータ数が決まる
  4. モデルの形式を決める。これにより、動かすLocal LLMのツールが決まる。

この記事で出てくる用語

最初に主要な用語を整理しておきます。

  • Local LLM: 自分のPCで動かすAI(クラウドじゃない)
  • パラメータ数: モデルの大きさ(7B = 70億パラメータ)
  • 量子化: モデルを圧縮する技術(Q4_K_Mなど)
  • トークン: AIが処理する文字の単位(日本語は1文字≒2トークン)

GPU or CPU ?

手持ちのPCがMacなのか、Windowsでグラフィックボードが搭載されている/されていないかで、推論性能が変わってきます。

GPU推論

  • 高速(7Bモデルで30-80 tok/s)
  • VRAMの制限がある
  • 電力効率が良い

CPU推論

  • 低速(7Bモデルで2-10 tok/s)
  • システムRAMを使える(容量的には有利)
  • どのPCでも動く
  • メモリ帯域幅がボトルネック(DDR5でも100GB/s程度)

CPU特化モデルもある
2025年現在、CPU向けに最適化されたモデルも登場しています。

  • SmolLM2 1.7B: CPU用に設計された軽量モデル
  • DeepSeek R1 1.5B: 推論タスクに特化
  • Gemma 1B: 8GB RAM以下でも動く

これらは小さいですが、CPU推論でも実用的な速度(10-20 tok/s)が出ます。速度は出ても性能はどうなのか未検証... 🤔

主要なモデルファミリー

GPU/CPUの推論方法がわかったことで、使いたいモデルを絞り込んでいきましょう。
2025年現在、よく使われているモデルを簡単に紹介します。

モデル 開発元 特徴 サイズ展開 ライセンス 日本語
Llama Meta 最も人気
汎用性が高い
1B, 3B, 8B
13B, 70B
月間アクティブユーザー7億人まで ★★☆☆☆
Mistral Mistral AI 効率重視
軽くて速い
7B, 8x7B
(MoE)
完全オープン ★★☆☆☆
Qwen Alibaba 多言語対応
日本語に強い
0.5B〜72B Apache 2.0 ★★★★★
DeepSeek DeepSeek コーディング特化
推論能力高い
1.5B〜67B MIT ★★★☆☆
Gemma Google 軽量・安全
初心者向け
2B, 7B, 9B 商用利用可能だが、Googleの利用規約に従う必要あり ★★★☆☆

用途別おすすめ

用途 おすすめモデル 理由
汎用チャット Llama 3.2 8B バランスが良い
日本語メイン Qwen 2.5 7B 日本語性能トップクラス
コーディング DeepSeek Coder 専門特化で高性能
軽量・高速 Mistral 7B 効率的な設計
初心者 Gemma 2B 軽くて扱いやすい

パラメータ数とは

モデルが決まったら、パラメータサイズを決めます。これは、「7B」「13B」「70B」といったモデル名のあとについている数字で、Bは「Billion(10億)」の略です。

必要なメモリの計算方法

パラメータ数からメモリ要件は以下のように計算します。

  • 基本計算: パラメータ数 × 2バイト (FP16(量子化なし)の場合)
  • 実用的には: 上記に20-30%の余裕を見る

例:

  • 7Bモデル → 14GB + 余裕 = 16-18GB必要
  • 13Bモデル → 26GB + 余裕 = 30-32GB必要
  • 32Bモデル → 64GB + 余裕 = 75-80GB必要

(深堀り)MacとWindowsでメモリの考え方が違う

PC買うときの参考にどうぞ。

Mac(Apple Silicon)の場合

  • ユニファイドメモリなので、システムメモリ = GPUメモリ
  • Mac本体のメモリ容量を見ればOK
  • 例:Mac Mini 64GBなら、64GBまでのモデルが動く

メモリを超えるモデルを動かすと?

  • スワップメモリを使い始める(SSDを仮想メモリとして使用)
  • Windowsより効率的だが、やはり遅い(10-20 tok/s → 1-3 tok/s)
  • SSDの寿命が縮む(頻繁な読み書き)
  • Activity Monitorで「メモリプレッシャー」が黄色や赤になる

Windows/Linuxの場合

  • VRAMが重要(グラフィックボードのメモリ)
  • RTX 4060 = 8GB VRAM
  • RTX 4090 = 24GB VRAM
  • システムRAMが256GBあってもVRAMが8GBなら、8GB以内のモデルしか高速動作しない

(深堀り)メモリ速度の比較:どっちが有利?

帯域幅(速度)の比較

  • RTX 4090 VRAM: 約1,000 GB/s(GDDR6)
  • M3 Ultra: 819 GB/s(ユニファイドメモリ)
  • M2 Max: 400 GB/s
  • 通常のDDR5メモリ: 50-100 GB/s(CPU↔RAM)
  • DDR4メモリ: 25-50 GB/s

純粋な速度ではRTX 4090の方が速い。でも...

Macのアドバンテージ

  1. 容量が大きい: RTX 4090は24GBまで、Macは512GBまで可能
  2. データコピー不要: GPU↔CPUのデータ転送がない
  3. 消費電力が1/10: RTX 4090の450Wに対し、M2 Ultraは約45W
  4. 静音: ファンがほとんど回らない

実際のLocal LLMでは?

  • 小〜中規模モデル(7B-13B): 体感差はほとんどない
  • 大規模モデル(32B以上): Macの方が動かしやすい(容量的に)
  • バッチ処理: RTX 4090の方が速い
  • 単発の推論: 差は小さい

量子化について

量子化は、モデルを圧縮する技術です。写真をJPEGで圧縮するようなものらしいです。
この技術があるおかげで、より大きなモデルを使えるようになったり、メモリ転送が減るので高速化が期待できます。

主な量子化レベル

量子化レベル ビット数 圧縮後サイズ メモリ削減率 品質 用途・特徴
FP16 16ビット 100%(基準) 0% ★★★★★ 元のモデル(圧縮なし)
Q8_0 8ビット 50% 50%削減 ★★★★★ ほぼ品質劣化なし
Q6_K 6ビット 37.5% 62.5%削減 ★★★★☆ 高品質維持
Q5_K_M 5ビット 31.25% 68.75%削減 ★★★★☆ バランス重視
Q4_K_M 4ビット 25% 75%削減 ★★★☆☆ 最も人気
Q3_K_S 3ビット 18.75% 81.25%削減 ★★☆☆☆ 軽量版
Q2_K 2ビット 12.5% 87.5%削減 ★☆☆☆☆ 品質は大幅低下

特殊な量子化形式

形式 説明 特徴
IQ系 重要度を考慮した量子化 より賢い圧縮
_0/_1 量子化の実装タイプ 0は小さく、1は品質重視
K_S/K_M/K_L k-quantsのサイズ S=Small, M=Medium, L=Large

選び方の目安

環境 おすすめ量子化 理由
VRAM/メモリに余裕あり Q6_K〜Q8_0 品質を最大限維持
一般的な環境 Q4_K_M〜Q5_K_M バランスが良い
メモリが厳しい Q3_K_S 動作を優先
とにかく動かしたい Q2_K 品質は諦める

モデル形式について

モデルには様々な形式があります。どれを選ぶかで使えるツールが変わってきます。

主要なモデル形式の比較

形式 対応環境 特徴 使えるツール おすすめ度
GGUF CPU/GPU両対応
全OS対応
最も汎用性が高い
初心者向け
LM Studio
Ollama
llama.cpp
★★★★★
GPTQ GPU専用
NVIDIA推奨
4ビット量子化特化
VRAMに全部載る必要
AutoGPTQ
ExLlama
Text-gen-webui
★★★☆☆
AWQ GPU専用 GPTQより高速
最新技術
vLLM
TGI
★★☆☆☆
MLX Apple Silicon専用 Mac最速
ユニファイドメモリ活用
mlx-lm
LM Studio
★★★★☆
(Mac限定)
SafeTensors 全環境 量子化前の生データ
サイズが巨大
Transformers
(要変換)
★☆☆☆☆

どの形式を選ぶ?

まずはGGUFから試すのがおすすめです。どのOSでも動くし、どのツールでも使える汎用性が高い形式だからです。
Macユーザーの場合は、GGUFでも十分ですが、速度を求めるならMLX形式も検討の価値があります。Apple Siliconに最適化されているので、同じモデルでも体感速度が違います。
GPU持ちの方も、最初はGGUFから始めることをおすすめします。物足りなくなったらGPTQやAWQを試してみる、という順番が良いでしょう。

ローカルLLMを動かす2つのツール

LM Studio(GUI派向け)

インストール:

  1. https://lmstudio.ai/ からダウンロード
  2. 普通のアプリと同じようにインストール

モデルの入手:

  • アプリ内の「Discover」タブで検索
  • ダウンロードボタンをクリックするだけ

使い方:

  • 「Chat」タブでモデルを選んで会話開始

Ollama(コマンドライン派向け)

インストール:

# 公式サイトから
https://ollama.com/download

# またはHomebrew
brew install ollama

モデルの入手と実行:

# 一発でダウンロード&実行
ollama run llama3.2

# Hugging Faceから直接(GGUF形式のみ)
ollama run hf.co/bartowski/Llama-3.2-3B-Instruct-GGUF:Q4_K_M

モデルの入手方法まとめ

  1. Hugging Face: https://huggingface.co/models

    • GGUFタグで検索
    • TheBloke、bartowskiユーザーの変換版が人気
  2. 各ツール内蔵機能

    • LM Studio: Discoverタブ
    • Ollama: ollama pullコマンド
  3. 注意点

    • GGUF形式を選ぶ(互換性が高い)
    • Q4_K_Mから始める(バランスが良い)
    • プライベートモデルはアカウント登録が必要

2025年7月の現状

技術的な進化

MoE(Mixture of Experts) という新しいアーキテクチャが登場し、大きなモデルを効率的に動かせるようになりました。Mixture of Experts(MoE)は、複数の専門家モデルを組み合わせて使う機械学習の手法です。
「数学の問題」「プログラミング」「日常会話」など、異なる種類の入力に対してそれぞれ得意な専門家を割り当てることで、効率的に高性能を実現します。GPT-4やMixtralなどの大規模言語モデルでもこの技術が使われており、性能と効率のバランスを取る重要な手法となっているそうです。

実用性について

なにを実用的とするかによりますが、自分の検証目的がコーディングだとすると、Mac Studioをもってしてもアプリ開発のアシスタントにはまだ使えない印象です(競技プロは違うのかも)。
Claudeが超絶優秀で感覚がマヒってるのはそうです。しかし、THUDM/GLM-4-32B-0414 のようにWebデザインに特化したモデルが出てきたりと、日々LLM界隈が驚異的な進化を遂げているので、これを書いた1週間後にはまた感想が変わっているかもしれません。

私にとって、実用性というよりは自宅サーバーを立ててWebサービスを公開するような楽しみ(?)なのでしょう。

まとめ

ローカルLLMを始める前に知っておくべきことは:

  1. パラメータ数 = 必要メモリを計算する
  2. 量子化でサイズと品質のバランスを取る
  3. モデルも万能ではないので用途に合ったモデルを選ぶ
  4. LM StudioかOllamaから始めるのがおすすめ
  5. 過度な期待は禁物(新しいモデルが出たら試してみるのは楽しいですね)

とにかく試すにもいろんな組み合わせがあって、このモデルは〇〇だからこうだ!みたいな評価が今の知識でできないですし、うまく言語化できなくてモヤモヤします。もはやワインを嗜むような感覚(?)

今回はLocal LLMのモデルに関する基礎知識を深堀りしてみました。
さっそくLM Studioをダウンロードして、皆さんも楽しい 利きLocal LLMライフを!

私のベンチマークプロジェクト

現在、Mac Air、Mac Mini、Mac Studio、RTX5060Ti 16GBでベンチマークを取っています。目的は、

  • ハードウェアにおける使えるモデルの種類と性能の傾向
  • 投資に見合う性能向上があるか
  • 他の人がPC購入時に参考になるデータを提供

結果は別記事で公開予定です!

Discussion