📑

Local LLMモデル入門：基礎知識編

2025/07/06に公開

 Local LLMにハマった2025年1月、Roo Cline（今のRoo Code）の自律的なタスク遂行にめちゃくちゃ感動していて、その時は本当にアプリを雰囲気で複数並行して作らせていたので、気づいたらAPI課金額が5万円超えることもありました。当然動かないゴミができあがりました。
課金せずにガンガン動かしたいと思ってLocal LLMを試し始め、MacBook Air 24GBじゃ遅すぎて、結局Mac Mini、Mac Studio、RTX5060Ti 16GB搭載Win機と買い増していく沼にハマってしまいました(Macはリセールがいいから...)。せっかくなのでそれぞれのマシンでベンチマークを取っていたところ、そもそもLocal LLMのモデルについての知識が薄くてブログを書くにも手が止まってしまったので、まず基礎知識を身に付けるために、この記事を書きました。
Local LLM を試したいとなったときに、おそらく以下の順番で検討すれば最適なモデル・ツールが見つかると思うので、そうした順番で解説します。
いま手持ちのPCが何であるか (Mac or Win/Linux)
用途によってモデルが決まる
メモリがどのくらい搭載されているかでモデルのパラメータ数が決まる
モデルの形式を決める。これにより、動かすLocal LLMのツールが決まる。

 この記事で出てくる用語最初に主要な用語を整理しておきます。
Local LLM: 自分のPCで動かすAI（クラウドじゃない）
パラメータ数: モデルの大きさ（7B = 70億パラメータ）
量子化: モデルを圧縮する技術（Q4_K_Mなど）
トークン: AIが処理する文字の単位（日本語は1文字≒2トークン）

 GPU or CPU ?手持ちのPCがMacなのか、Windowsでグラフィックボードが搭載されている/されていないかで、推論性能が変わってきます。
GPU推論
高速（7Bモデルで30-80 tok/s）
VRAMの制限がある
電力効率が良い
CPU推論
低速（7Bモデルで2-10 tok/s）
システムRAMを使える（容量的には有利）
どのPCでも動く
メモリ帯域幅がボトルネック（DDR5でも100GB/s程度）
CPU特化モデルもある

2025年現在、CPU向けに最適化されたモデルも登場しています。
SmolLM2 1.7B: CPU用に設計された軽量モデル
DeepSeek R1 1.5B: 推論タスクに特化
Gemma 1B: 8GB RAM以下でも動く
これらは小さいですが、CPU推論でも実用的な速度（10-20 tok/s）が出ます。速度は出ても性能はどうなのか未検証... 🤔

 主要なモデルファミリーGPU/CPUの推論方法がわかったことで、使いたいモデルを絞り込んでいきましょう。

2025年現在、よく使われているモデルを簡単に紹介します。


モデル
開発元
特徴
サイズ展開
ライセンス
日本語


Llama
Meta
最も人気
汎用性が高い
1B, 3B, 8B
13B, 70B
月間アクティブユーザー7億人まで
★★☆☆☆

Mistral
Mistral AI
効率重視
軽くて速い
7B, 8x7B
(MoE)
完全オープン
★★☆☆☆

Qwen
Alibaba
多言語対応
日本語に強い
0.5B〜72B
Apache 2.0
★★★★★

DeepSeek
DeepSeek
コーディング特化
推論能力高い
1.5B〜67B
MIT
★★★☆☆

Gemma
Google
軽量・安全
初心者向け
2B, 7B, 9B
商用利用可能だが、Googleの利用規約に従う必要あり
★★★☆☆


 用途別おすすめ

用途
おすすめモデル
理由


汎用チャット
Llama 3.2 8B
バランスが良い

日本語メイン
Qwen 2.5 7B
日本語性能トップクラス

コーディング
DeepSeek Coder
専門特化で高性能

軽量・高速
Mistral 7B
効率的な設計

初心者
Gemma 2B
軽くて扱いやすい


 パラメータ数とはモデルが決まったら、パラメータサイズを決めます。これは、「7B」「13B」「70B」といったモデル名のあとについている数字で、Bは「Billion（10億）」の略です。

 必要なメモリの計算方法パラメータ数からメモリ要件は以下のように計算します。

基本計算: パラメータ数 × 2バイト (FP16（量子化なし）の場合)

実用的には: 上記に20-30%の余裕を見る
例：
7Bモデル → 14GB + 余裕 = 16-18GB必要
13Bモデル → 26GB + 余裕 = 30-32GB必要
32Bモデル → 64GB + 余裕 = 75-80GB必要

 (深堀り)MacとWindowsでメモリの考え方が違うPC買うときの参考にどうぞ。
Mac（Apple Silicon）の場合

ユニファイドメモリなので、システムメモリ = GPUメモリ
Mac本体のメモリ容量を見ればOK
例：Mac Mini 64GBなら、64GBまでのモデルが動く
メモリを超えるモデルを動かすと？
スワップメモリを使い始める（SSDを仮想メモリとして使用）
Windowsより効率的だが、やはり遅い（10-20 tok/s → 1-3 tok/s）
SSDの寿命が縮む（頻繁な読み書き）
Activity Monitorで「メモリプレッシャー」が黄色や赤になる
Windows/Linuxの場合

VRAMが重要（グラフィックボードのメモリ）
RTX 4060 = 8GB VRAM
RTX 4090 = 24GB VRAM
システムRAMが256GBあってもVRAMが8GBなら、8GB以内のモデルしか高速動作しない

 (深堀り)メモリ速度の比較：どっちが有利？帯域幅（速度）の比較
RTX 4090 VRAM: 約1,000 GB/s（GDDR6）
M3 Ultra: 819 GB/s（ユニファイドメモリ）
M2 Max: 400 GB/s

通常のDDR5メモリ: 50-100 GB/s（CPU↔RAM）

DDR4メモリ: 25-50 GB/s
純粋な速度ではRTX 4090の方が速い。でも...
Macのアドバンテージ

容量が大きい: RTX 4090は24GBまで、Macは512GBまで可能

データコピー不要: GPU↔CPUのデータ転送がない

消費電力が1/10: RTX 4090の450Wに対し、M2 Ultraは約45W

静音: ファンがほとんど回らない
実際のLocal LLMでは？
小〜中規模モデル（7B-13B）: 体感差はほとんどない
大規模モデル（32B以上）: Macの方が動かしやすい（容量的に）
バッチ処理: RTX 4090の方が速い
単発の推論: 差は小さい

 量子化について量子化は、モデルを圧縮する技術です。写真をJPEGで圧縮するようなものらしいです。

この技術があるおかげで、より大きなモデルを使えるようになったり、メモリ転送が減るので高速化が期待できます。

 主な量子化レベル

量子化レベル
ビット数
圧縮後サイズ
メモリ削減率
品質
用途・特徴


FP16
16ビット
100%（基準）
0%
★★★★★
元のモデル（圧縮なし）

Q8_0
8ビット
50%
50%削減
★★★★★
ほぼ品質劣化なし

Q6_K
6ビット
37.5%
62.5%削減
★★★★☆
高品質維持

Q5_K_M
5ビット
31.25%
68.75%削減
★★★★☆
バランス重視

Q4_K_M
4ビット
25%
75%削減
★★★☆☆
最も人気

Q3_K_S
3ビット
18.75%
81.25%削減
★★☆☆☆
軽量版

Q2_K
2ビット
12.5%
87.5%削減
★☆☆☆☆
品質は大幅低下


 特殊な量子化形式

形式
説明
特徴


IQ系
重要度を考慮した量子化
より賢い圧縮

_0/_1
量子化の実装タイプ
0は小さく、1は品質重視

K_S/K_M/K_L
k-quantsのサイズ
S=Small, M=Medium, L=Large


 選び方の目安

環境
おすすめ量子化
理由


VRAM/メモリに余裕あり
Q6_K〜Q8_0
品質を最大限維持

一般的な環境
Q4_K_M〜Q5_K_M
バランスが良い

メモリが厳しい
Q3_K_S
動作を優先

とにかく動かしたい
Q2_K
品質は諦める


 モデル形式についてモデルには様々な形式があります。どれを選ぶかで使えるツールが変わってきます。

 主要なモデル形式の比較

形式
対応環境
特徴
使えるツール
おすすめ度


GGUF
CPU/GPU両対応
全OS対応
最も汎用性が高い
初心者向け
LM Studio
Ollama
llama.cpp
★★★★★

GPTQ
GPU専用
NVIDIA推奨
4ビット量子化特化
VRAMに全部載る必要
AutoGPTQ
ExLlama
Text-gen-webui
★★★☆☆

AWQ
GPU専用
GPTQより高速
最新技術
vLLM
TGI
★★☆☆☆

MLX
Apple Silicon専用
Mac最速
ユニファイドメモリ活用
mlx-lm
LM Studio
★★★★☆
(Mac限定)

SafeTensors
全環境
量子化前の生データ
サイズが巨大
Transformers
(要変換)
★☆☆☆☆


 どの形式を選ぶ？まずはGGUFから試すのがおすすめです。どのOSでも動くし、どのツールでも使える汎用性が高い形式だからです。

Macユーザーの場合は、GGUFでも十分ですが、速度を求めるならMLX形式も検討の価値があります。Apple Siliconに最適化されているので、同じモデルでも体感速度が違います。

GPU持ちの方も、最初はGGUFから始めることをおすすめします。物足りなくなったらGPTQやAWQを試してみる、という順番が良いでしょう。

 ローカルLLMを動かす2つのツール
 LM Studio（GUI派向け）インストール：

https://lmstudio.ai/ からダウンロード
普通のアプリと同じようにインストール
モデルの入手：
アプリ内の「Discover」タブで検索
ダウンロードボタンをクリックするだけ
使い方：
「Chat」タブでモデルを選んで会話開始

 Ollama（コマンドライン派向け）インストール：
# 公式サイトから
https://ollama.com/download

# またはHomebrew
brew install ollama
モデルの入手と実行：
# 一発でダウンロード＆実行
ollama run llama3.2

# Hugging Faceから直接（GGUF形式のみ）
ollama run hf.co/bartowski/Llama-3.2-3B-Instruct-GGUF:Q4_K_M

 モデルの入手方法まとめHugging Face: https://huggingface.co/models
GGUFタグで検索
TheBloke、bartowskiユーザーの変換版が人気
各ツール内蔵機能
LM Studio: Discoverタブ
Ollama: ollama pullコマンド
注意点
GGUF形式を選ぶ（互換性が高い）
Q4_K_Mから始める（バランスが良い）
プライベートモデルはアカウント登録が必要

 2025年7月の現状
 技術的な進化MoE（Mixture of Experts) という新しいアーキテクチャが登場し、大きなモデルを効率的に動かせるようになりました。Mixture of Experts（MoE）は、複数の専門家モデルを組み合わせて使う機械学習の手法です。

「数学の問題」「プログラミング」「日常会話」など、異なる種類の入力に対してそれぞれ得意な専門家を割り当てることで、効率的に高性能を実現します。GPT-4やMixtralなどの大規模言語モデルでもこの技術が使われており、性能と効率のバランスを取る重要な手法となっているそうです。

 実用性についてなにを実用的とするかによりますが、自分の検証目的がコーディングだとすると、Mac Studioをもってしてもアプリ開発のアシスタントにはまだ使えない印象です(競技プロは違うのかも)。

Claudeが超絶優秀で感覚がマヒってるのはそうです。しかし、THUDM/GLM-4-32B-0414 のようにWebデザインに特化したモデルが出てきたりと、日々LLM界隈が驚異的な進化を遂げているので、これを書いた1週間後にはまた感想が変わっているかもしれません。
私にとって、実用性というよりは自宅サーバーを立ててWebサービスを公開するような楽しみ(?)なのでしょう。

 まとめローカルLLMを始める前に知っておくべきことは：

パラメータ数 = 必要メモリを計算する

量子化でサイズと品質のバランスを取る
モデルも万能ではないので用途に合ったモデルを選ぶ

LM StudioかOllamaから始めるのがおすすめ

過度な期待は禁物（新しいモデルが出たら試してみるのは楽しいですね）
とにかく試すにもいろんな組み合わせがあって、このモデルは〇〇だからこうだ！みたいな評価が今の知識でできないですし、うまく言語化できなくてモヤモヤします。もはやワインを嗜むような感覚(?)
今回はLocal LLMのモデルに関する基礎知識を深堀りしてみました。

さっそくLM Studioをダウンロードして、皆さんも楽しい 利きLocal LLMライフを！

 私のベンチマークプロジェクト現在、Mac Air、Mac Mini、Mac Studio、RTX5060Ti 16GBでベンチマークを取っています。目的は、
ハードウェアにおける使えるモデルの種類と性能の傾向
投資に見合う性能向上があるか
他の人がPC購入時に参考になるデータを提供
結果は別記事で公開予定です！

モデル	開発元	特徴	サイズ展開	ライセンス	日本語
Llama	Meta	最も人気汎用性が高い	1B, 3B, 8B 13B, 70B	月間アクティブユーザー7億人まで	★★☆☆☆
Mistral	Mistral AI	効率重視軽くて速い	7B, 8x7B (MoE)	完全オープン	★★☆☆☆
Qwen	Alibaba	多言語対応日本語に強い	0.5B〜72B	Apache 2.0	★★★★★
DeepSeek	DeepSeek	コーディング特化推論能力高い	1.5B〜67B	MIT	★★★☆☆
Gemma	Google	軽量・安全初心者向け	2B, 7B, 9B	商用利用可能だが、Googleの利用規約に従う必要あり	★★★☆☆

用途	おすすめモデル	理由
汎用チャット	Llama 3.2 8B	バランスが良い
日本語メイン	Qwen 2.5 7B	日本語性能トップクラス
コーディング	DeepSeek Coder	専門特化で高性能
軽量・高速	Mistral 7B	効率的な設計
初心者	Gemma 2B	軽くて扱いやすい

量子化レベル	ビット数	圧縮後サイズ	メモリ削減率	品質	用途・特徴
FP16	16ビット	100%（基準）	0%	★★★★★	元のモデル（圧縮なし）
Q8_0	8ビット	50%	50%削減	★★★★★	ほぼ品質劣化なし
Q6_K	6ビット	37.5%	62.5%削減	★★★★☆	高品質維持
Q5_K_M	5ビット	31.25%	68.75%削減	★★★★☆	バランス重視
Q4_K_M	4ビット	25%	75%削減	★★★☆☆	最も人気
Q3_K_S	3ビット	18.75%	81.25%削減	★★☆☆☆	軽量版
Q2_K	2ビット	12.5%	87.5%削減	★☆☆☆☆	品質は大幅低下

形式	説明	特徴
IQ系	重要度を考慮した量子化	より賢い圧縮
_0/_1	量子化の実装タイプ	0は小さく、1は品質重視
K_S/K_M/K_L	k-quantsのサイズ	S=Small, M=Medium, L=Large

環境	おすすめ量子化	理由
VRAM/メモリに余裕あり	Q6_K〜Q8_0	品質を最大限維持
一般的な環境	Q4_K_M〜Q5_K_M	バランスが良い
メモリが厳しい	Q3_K_S	動作を優先
とにかく動かしたい	Q2_K	品質は諦める

形式	対応環境	特徴	使えるツール	おすすめ度
GGUF	CPU/GPU両対応全OS対応	最も汎用性が高い初心者向け	LM Studio Ollama llama.cpp	★★★★★
GPTQ	GPU専用 NVIDIA推奨	4ビット量子化特化 VRAMに全部載る必要	AutoGPTQ ExLlama Text-gen-webui	★★★☆☆
AWQ	GPU専用	GPTQより高速最新技術	vLLM TGI	★★☆☆☆
MLX	Apple Silicon専用	Mac最速ユニファイドメモリ活用	mlx-lm LM Studio	★★★★☆ (Mac限定)
SafeTensors	全環境	量子化前の生データサイズが巨大	Transformers (要変換)	★☆☆☆☆

Local LLMにハマった

この記事で出てくる用語

GPU or CPU ?

主要なモデルファミリー

用途別おすすめ

パラメータ数とは

必要なメモリの計算方法

(深堀り)MacとWindowsでメモリの考え方が違う

(深堀り)メモリ速度の比較：どっちが有利？

量子化について

主な量子化レベル

特殊な量子化形式

選び方の目安

モデル形式について

主要なモデル形式の比較

どの形式を選ぶ？

ローカルLLMを動かす2つのツール

LM Studio（GUI派向け）

Ollama（コマンドライン派向け）

モデルの入手方法まとめ

2025年7月の現状

技術的な進化

実用性について

まとめ

私のベンチマークプロジェクト

Discussion