🤖

Codexが限界を迎えたので、ローカルLLMを整備した。(25/11/03)

2025/11/02に公開

 前書きこの記事は大半が生成AIにより調査・分析がされたものを人間が精査した内容となります。

人間が全て書いた文章は前書きときっかけと経緯のみであり、以降の文章は一応確認はしていますが筆者が勘違いをしている可能性もあるため、鵜呑みにせず自らエビデンスを取った上で情報取得等してください。
また、読者には悪いんですが、この先は泥臭いものしかありません。

MCPサーバーは何を使う？とかコンテキストエンジニアリングの話とかComposer-1がどうのとかそういうキラキラしたものは無いです。

私にとってごく一般的な話しかしません。

 きっかけと経緯OpenAIのCodexの利用をしていたが、ここ3日でレートリミットの天井をすぐに叩くようになったため、代替手段を探していた。筆者は重度にCodexを使用していたため、レートリミットが来るまで休憩をしないという開発を続けるという活動を続けていた。

これくらいの使い込み。

Githubですが、Codexだけでここまで伸ばしていました。このコントリビューションは緑の期間のみの物です。

大体動くコードを27万行は生産しています。どうせバイブコーディングのクソコードだろ？と言われそうなのと、私自身もこんなの信用できなかったので一般的なサイトで出せる診断させたものも出します。改変してません。

ちゃんと動くもの？を作っています。OSSの話はまた今度します。別に隠しているわけでもないのでアカウント名でアクセスしに行って構いません。お茶も出せません。そんなんだから

Contribution 0.00

Influence 0.00

スター0

ウォッチ0

なんです。

Findy

GitRoll
更新：そして11月3日時点。もう終わりだよ。

ここ最近、レートリミットが来やすくなり、凄い消費しやすくなっているため不安この上ない。

とにかくこの使用状況が安定しない。

そもそも環境が変わらなかったらそのままCodexで開発を続け、

Zennアカウントを作成し、この記事を書こうとは思わなかっただろう。要は何もできなくなっているため暇を持て余し、外にアウトプットすることにしたのだ。

というわけで、せっかくの機会なので、頭を整理するためもあるが、

補助的に運用できるエージェントやCodexが落ちた時向けの環境整備も考える必要があったので、

整備して記事を1本書くことにした。
無料で生成AIという話であるなら、様々な無料生成AIサービスがあるのでそれで一応できるが、

Codexの体験をしてしまったおかげでそんな気持ちには一切ならない。

結局APIを刺して開発する他ないのだ。

というか、私自身はChatGPT Plus利用者なので

GPT-5-Thinkingとディープリサーチとエージェントモードという手段が取れる。

要件定義や仕様書を作成する段階なら有用だけども、

それ以降でやらないということは実装や設計段階だともう物足らないってこと。
そしてCodexとは異なる、バイブコーディングを行うにあたって、

代替手段としては、真っ先に思いつくのはGemini。

現在2025/11/02時点で安定・安い・性能もある。という条件がそろっているのは恐らくこの他にはないと思う。

普通に開発への資金がそれなりにある開発者であるなら、有名どころのAPIを刺したり、

Gemini Flash 2.5辺りのメジャーなモデルを使用すればいいのだが、

いくらコスパが良いとはいえ、コスパモデルでもやはりお金がかかる。
そして今、まだ生成AIの大きなブームが続いているため、

第二の手段としてキャンペーン的な無料枠APIはある。

大まかに筆者が認識しているのは「OpenAI」「Gemini」「Openrouter」の三つである。

OpenAIは学習データ提供との引き換えで毎日無料キャンペーンがある。※1

Geminiにも無料枠はあり、かなり使える。※2

OpenRouterも1回10ドル支払い(もはやデポジットと言っていいだろう)をすることでかなり大きいオープンウェイトモデルを1日1000回無料枠を叩けるようになる※3

複合して使えば恐らく1日に使える分量はかなりのものになる。

価格に対して質じゃなくて量を優先するならこの3種類を利用するのが良いだろう。

学生の場合でも学割キャンペーンが終わったときこの話を思い出すと役立つかもしれない。
だが、無料だからといってAPIをカチャカチャと切り替えて使い分けながらバイブコーディングをケチケチ運用するのって、コード品質というかそれぞれ最適なプロンプトの書き方は若干異なるだろうし、

それはそれで心が貧しくなりそうで嫌だなという気持ちもある上に、

これらのキャンペーンは今、ブームだからお金がガンガン回って使わせてもらえてるけど、

ブームが終わったら超高くなるのが目に見えている。期待でお金が回っている。ありがたく享受すべきではあるが…

ローカルLLMの方が本来は安くなるはずが逆鞘が発生していると言って過言ではない。

Sora2なんて一日29回生成できるが、追加分10回で670円ほど、つまり毎日2000円お金配りしているようなもの。狂ってる。

そういうわけで私個人としては一過性のお金配り的なキャンペーンがずっと続いているという認識であるため、

無料枠というのはいつまでもあるものではないだろうなと思っている。なので使わない。くねくね。

前述のとおりでもあるが、モデル毎の得意不得意は異なるため、運用で開発進行やコードのブレが毎日発生するのも勘弁したいので、見送り。
よって第三の手段。ローカルLLM。

これは夏の間は利用したくはないが、ローカルLLMにはいくつかのメリットがある。
どんなに回しても部屋が暖かくなり、電気代のみで済む。常時回っている場合、電気あんかいらず。
クラウドLLMと比べたらパラメータ数は逸般のご家庭ではないなら

　どんなに多くしても30Bくらいが実用的な上限。

　少し性能は低いが、用途を選んで生成させればAPIのコスパモデルを上回る(かも)
最近の性能はバイブコーディングしても恐らく問題ないくらいには性能が上がった(気がする)
APIやクラウドサービスだと遅いときがあるが、そのような状況はまず発生しない。
セキュア環境を整えつつ、開発環境の向上を選ぶとなるとこの手段の他ない。

ちょっと書きっぷりに自身が無いのは導入まで行って動かしてはいるし、各所のハッカソンプロジェクトで開発してある成果物も見ているが、自分自身で実証実験まで至ってないから。

私自身としても本業は品質保証系のキャリアを歩んでいて、自前の開発・生産能力自体はミドルエンジニアクラスなので、何もアクセスできない状態で開発せよと言われた際、いざLLM無しで始めると寝ているのとほぼ変わらない状態は避けたく思っていた。

なので、ローカルLLMを利用した開発環境は必要なので、導入した。

上記GithubもCodexをそれなりに扱ったからこのコントリビューションだが、Codex前はそもそも開発はすれどもGithubを利用するという発想が無かったので恐らく1桁くらいしかなかったと思う。

 筆者の環境プロセッサ	AMD Ryzen 5 5500GT with Radeon Graphics
実装 RAM	64.0 GB (63.8 GB 使用可能)
ストレージ	954 GB
GPU		RTX 3090

 一旦選んだローカルLLMGPT-OSS-20b
Qwen3 VL30b-a3b , 32B , Coder(30B)
Gemma-3n-e4b

 一旦選んだ今後のAPIGeminiとOpenAI、足りなくなったらOpenrouter。

 導入している環境LM Studioでサーバーを立てる。

VSCode
Continue
Cline

わざわざ2つ入れているのはローカルLLMとAPIを意識して使い分けるためです。

ContinueはローカルLLM、ClineはAPI
ただ、後述の通り、今回はMiniMax M2 無料キャンペーン中だったので、これを利用することとした。PR記事ではありません。
本題まで長くなったが、きっかけと経緯は以上となります。

ここからローカルLLMの調査結果です。

ただ、内容としてはDeepReserchしたものが土台なのでそれほど有用じゃないと思います。
※1

https://help.openai.com/en/articles/10306912-sharing-feedback-evaluation-and-fine-tuning-data-and-api-inputs-and-outputs-with-openai
※2

https://aistudio.google.com/
※3

https://openrouter.ai/

https://openrouter.ai/docs/api-reference/limits#:~:text=If you purchase at least 10 credits%2C your daily limit is increased to 1000 %3Afree model requests per day

 ローカルLLM比較一覧（2025年11月02日時点）

モデル
開発元（国）
アーキテクチャと特徴
主要ベンチマークスコア

Gemma-3n-E4B
Google DeepMind（米国）
約80億（実効4B）パラメータの軽量マルチモーダルモデル。MatFormer構造を採用し、PC・スマホでも動作可能（VRAM 3GB級）。文脈長32K。

MMLU：約72%, GSM8K：83%, HumanEval：40%。10B未満でElo1300超を達成。小型ながら大規模級性能。

GPT-OSS-20B
（OpenAIオープンソース）

OpenAI（米国）
OpenAI初のオープンウェイトLLM。MoE構造（総210億・活性3.6億）。低レイテンシ最適化。Harmony形式出力に対応し、16GB GPUでも動作可能。

MMLU：85.3%, GSM8K：71.4%, HumanEval：78.2%。o3-mini相当の性能で、ツール連携タスクにも強い。

Qwen3-VL-30B-A3B
アリババクラウド（中国）
Mixture-of-Experts方式のLLM（総パラメータ約30.5B、活性化3.3B：128専門家中8活性）。画像・動画入力対応の多モーダルモデルで、ネイティブ文脈長256Kトークン。GUI操作や高度な空間推論、OCR（32言語）などの視覚エージェント機能を強化。テキストでは同シリーズの言語モデルと同等性能を示す。
テキストタスクはQwen3-32Bと同水準（MMLU 80%以上）。画像説明・視覚推論でも最先端で、暗所・ブレのある画像OCRや複雑な画像推論に強い。

Qwen3-VL-32B-Instruct
アリババクラウド（中国）
32BパラメータのDense版多モーダルLLM。Instructチューニング済み。画像・動画対応、256Kトークン文脈。Mixtureを使わないため推論挙動が安定。

MMLU：約86%。マルチモーダル推論に優れ、数理・空間推論でも高精度。

Qwen3-32B (ベース)
アリババクラウド（中国）
328億パラメータの密結合LLM。Thinkingモードによる段階的推論と即答モードを切替可能。100+言語対応、128K文脈。

MMLU：79.6%, GSM8K：86.2%, HumanEval：73.9%。数学・コード・常識推論に強く、GPT-3.5を凌駕。

ここまでは家でも動かせるライン。

余談だけど私の環境でもGPT-OSS-120は約5tok/sで動きはしたので、

もしかしたらいつか役立つ時が来るのかもしれない。
これ以降はDGX SparkやM2 Ultra(Macbook)が無いと無理。

そしてAPI使えばいいじゃんって大抵の人が一度は言われる。

最近メモリ周りの値段が高騰し始めているのでDGX Sparkは買い時だと思いますよ。

私がお金持っていたら恐らく2台は購入したでしょうね。

モデル
開発元（国）
アーキテクチャと特徴
主要ベンチマークスコア

Llama 4 Scout (17B-16E)
Meta（米国）
1090億パラメータ（活性17億）のMoE構造（16専門家）。ネイティブ多モーダル対応。文脈長最大1000万トークン。H100単機実行可（int4）。

MiniMax v2m (M2)
MiniMax（中国）
2300億（活性10B）パラメータのスパースMoE。FP8精度でH100×4構成に収まる効率設計。128K文脈。<code><think></code>対応。

SWE-Bench（Verified）：69.4, ArtifactsBench：66.8, τ²-Bench：77.2。GPT-5の約96%性能で、GPUコスト対性能比が極めて優秀。

GLM-4.6
Zhipu AI（中国）
3550億パラメータ（活性約32B）のMoE型LLM。文脈長200K。ツール統合推論・コード生成最適化。

MMLU：約84%, GSM8K：約93%, HumanEval：約92%。Claude 4並みのコード性能。

ついでに調べさせたもの。

モデル
開発元（国）
アーキテクチャと特徴
主要ベンチマークスコア

Qwen3-Coder-480B
アリババクラウド（中国）
4800億パラメータ（活性35B：160専門家中8活性）のコード特化MoEモデル。コード比70%の事前学習＋RLHF実施。<code><think></code>タグ出力可能。

SWE-Bench（Verified）約68%, Aider-Polyglot 61.8%。商用モデル級のコード修正・生成能力。

DeepSeek V3.2-Exp
DeepSeek-AI（国際）
約6710億（活性37B）パラメータのMoEモデル。DeepSeek Sparse Attention（DSA）採用で長文効率化。Thinkingモードとツール連携を内包。

MMLU-Pro：85.0%, AIME 2025：89.3%, LiveCodeBench：74.1%。高効率かつ高精度な推論を維持。

 DGX Spark換算表（「何台で動く？」感覚）

モデル
必要台数（目安）
備考・根拠

GPT-OSS-20B
✅ 1台余裕（もちろん可）

約20Bパラメータで、16GB GPUでも動作確認済。Spark（128GB）では完全に余裕。

Qwen3-30B-A3B
✅ 1台

30B級モデル。SparkのFP4換算では約1台で十分稼働。

Qwen3-VL-32B
✅ 1台

32B Dense版でも128GB統合メモリ内に収まる。

GPT-OSS-120B
✅ 1台（余裕あり）

OpenAI記載では80GB GPUでも可。Spark 128GBなら余裕。

Qwen3-VL-235B-A22B
⚙️ 2台（405B枠内）

Leadtek表記の「2台直結で405B級」範囲に収まる。

Qwen3-Coder-480B DeepSeek V3 / V3.2-Exp（671B total）

❌ 2台では不足

全量実行にはクラスタ／クラウド前提。部分稼働可。

 参考：DGX Sparkハードウェア仕様・販社情報

項目
内容
出典

DGX Spark 仕様要点
統合メモリ128GB。FP4換算で最大200B級を想定。
NVIDIA公式資料、販社情報（LEADTEK / ELSA）

2台構成時の性能
「2台直結で405B級」表記あり。
LEADTEK・ELSA販社資料

NVIDIA公式説明
「128GB統合メモリで〜70B微調整」など用途解説。
NVIDIA公式

販社（LEADTEK / ELSA）共通見解
「200Bまで」「2台で405B」などの性能レンジ表現。
LEADTEK, ELSA

初報・価格帯
“Digits”名称で初報。価格は約$3,000台。2台直結構成が報道された。
The Verge

要約：

DGX SparkはFP4換算で200B級×1台、405B級×2台が実用上の上限。

そのため、Qwen3〜GPT-OSS-120Bまでは単体実行可、

Qwen3-VL-235Bまでが2台運用ライン、

DeepSeek V3系はクラスタ専用級の規模となる。
注記：

本表のベンチマークは2025年10〜11月時点の公開データおよび企業発表値を基に整理。

特にMiniMax M2は**「DGX Spark 4基で実運用可能なGPT-5級」**として注目されている。

 利用上の注意（MiniMax M2 無料キャンペーンの利用について）現在、MiniMaxは新モデル 「M2」 を搭載した「Agent」およびAPIを期間限定で無料公開しています。

公式サイトでは「しばらく無料（サーバーの負荷が限界になるまで）」と案内されており、プラットフォーム概要ページには「2025年11月7日 00:00（UTC）まで(つまり→日本時間9:00終了予定」)という記載もあります。

無料期間は予告なく変更される場合があるため、最新の情報は公式サイトで随時確認してください。

（参照：MiniMax公式サイト）

 権利とデータの扱いについてMiniMaxの利用規約では、ユーザーが生成したコンテンツの所有権は利用者本人に残ると明記されています。

ただし同時に、MiniMaxに対して**世界中での利用を許可する広範なライセンス（無償・恒久・取り消し不可）**を与える仕組みになっています。

このライセンスには、複製・翻訳・改変・商用利用などが含まれます。
そのため、個人の検証・ブログ・OSS開発のような公開を前提とした利用では問題になることは少ないものの、

企業の業務データや機密情報を含む利用は注意が必要です。

（参照：MiniMax 利用規約）

 準拠法と紛争解決MiniMaxの規約では、準拠法はシンガポール法であり、

紛争が発生した場合はシンガポールまたは米国の裁判所、もしくはSIAC仲裁が定められています。

日本国内の企業で業務利用する場合は、この法的条件を受け入れ可能かどうかを法務部門で確認するのが望ましいです。

（参照：MiniMax 利用規約）

 プライバシーと情報開示についてプライバシーポリシーには、法的要請や規約違反の調査等の目的で、当局や関係機関に情報を提供する場合があることが明記されています。

そのため、個人情報・未公開コード・取引先情報などの秘匿性の高いデータは入力しない方針を徹底してください。

（参照：MiniMax プライバシーポリシー）

 周辺の動向（参考情報）MiniMaxが運営する別サービス「Hailuo AI」について、

米大手スタジオ3社（ディズニー、ユニバーサル、ワーナー・ブラザース・ディスカバリー）から著作権侵害で提訴されたとの報道があります。

これはM2モデルそのものに関するものではありませんが、企業利用時のリスク評価としては念頭に置いておくと良いでしょう。

（参照：Reuters 記事）

 M2モデルをAPIで扱う際の望ましい運用方針個人・OSS用途に限定
公開可能なコードやテキストのみを使用します。
顧客情報・社内資料などの機密データは一切投入しません。
権利関係の明示
生成物の所有権は利用者に残る一方、規約上はMiniMaxに広範な利用許諾が付く旨を明記し、利用規約のURLを添えます。
ローカル実行の推奨
M2モデルはオープンウェイトが公開されており、vLLMやSGLangを使ってローカル環境でも実行可能です。
機密情報を扱う場合は、必ずローカル環境で運用することを推奨します。

モデル	開発元（国）	アーキテクチャと特徴	主要ベンチマークスコア
Gemma-3n-E4B	Google DeepMind（米国）	約80億（実効4B）パラメータの軽量マルチモーダルモデル。MatFormer構造を採用し、PC・スマホでも動作可能（VRAM 3GB級）。文脈長32K。	MMLU：約72%, GSM8K：83%, HumanEval：40%。10B未満でElo1300超を達成。小型ながら大規模級性能。
GPT-OSS-20B （OpenAIオープンソース）	OpenAI（米国）	OpenAI初のオープンウェイトLLM。MoE構造（総210億・活性3.6億）。低レイテンシ最適化。Harmony形式出力に対応し、16GB GPUでも動作可能。	MMLU：85.3%, GSM8K：71.4%, HumanEval：78.2%。o3-mini相当の性能で、ツール連携タスクにも強い。
Qwen3-VL-30B-A3B	アリババクラウド（中国）	Mixture-of-Experts方式のLLM（総パラメータ約30.5B、活性化3.3B：128専門家中8活性）。画像・動画入力対応の多モーダルモデルで、ネイティブ文脈長256Kトークン。GUI操作や高度な空間推論、OCR（32言語）などの視覚エージェント機能を強化。テキストでは同シリーズの言語モデルと同等性能を示す。	テキストタスクはQwen3-32Bと同水準（MMLU 80%以上）。画像説明・視覚推論でも最先端で、暗所・ブレのある画像OCRや複雑な画像推論に強い。
Qwen3-VL-32B-Instruct	アリババクラウド（中国）	32BパラメータのDense版多モーダルLLM。Instructチューニング済み。画像・動画対応、256Kトークン文脈。Mixtureを使わないため推論挙動が安定。	MMLU：約86%。マルチモーダル推論に優れ、数理・空間推論でも高精度。
Qwen3-32B (ベース)	アリババクラウド（中国）	328億パラメータの密結合LLM。Thinkingモードによる段階的推論と即答モードを切替可能。100+言語対応、128K文脈。	MMLU：79.6%, GSM8K：86.2%, HumanEval：73.9%。数学・コード・常識推論に強く、GPT-3.5を凌駕。

モデル	開発元（国）	アーキテクチャと特徴	主要ベンチマークスコア
Llama 4 Scout (17B-16E)	Meta（米国）	1090億パラメータ（活性17億）のMoE構造（16専門家）。ネイティブ多モーダル対応。文脈長最大1000万トークン。H100単機実行可（int4）。
MiniMax v2m (M2)	MiniMax（中国）	2300億（活性10B）パラメータのスパースMoE。FP8精度でH100×4構成に収まる効率設計。128K文脈。<code><think></code>対応。	SWE-Bench（Verified）：69.4, ArtifactsBench：66.8, τ²-Bench：77.2。GPT-5の約96%性能で、GPUコスト対性能比が極めて優秀。
GLM-4.6	Zhipu AI（中国）	3550億パラメータ（活性約32B）のMoE型LLM。文脈長200K。ツール統合推論・コード生成最適化。	MMLU：約84%, GSM8K：約93%, HumanEval：約92%。Claude 4並みのコード性能。

モデル	開発元（国）	アーキテクチャと特徴	主要ベンチマークスコア
Qwen3-Coder-480B	アリババクラウド（中国）	4800億パラメータ（活性35B：160専門家中8活性）のコード特化MoEモデル。コード比70%の事前学習＋RLHF実施。<code><think></code>タグ出力可能。	SWE-Bench（Verified）約68%, Aider-Polyglot 61.8%。商用モデル級のコード修正・生成能力。
DeepSeek V3.2-Exp	DeepSeek-AI（国際）	約6710億（活性37B）パラメータのMoEモデル。DeepSeek Sparse Attention（DSA）採用で長文効率化。Thinkingモードとツール連携を内包。	MMLU-Pro：85.0%, AIME 2025：89.3%, LiveCodeBench：74.1%。高効率かつ高精度な推論を維持。

モデル	必要台数（目安）	備考・根拠
GPT-OSS-20B	✅ 1台余裕（もちろん可）	約20Bパラメータで、16GB GPUでも動作確認済。Spark（128GB）では完全に余裕。
Qwen3-30B-A3B	✅ 1台	30B級モデル。SparkのFP4換算では約1台で十分稼働。
Qwen3-VL-32B	✅ 1台	32B Dense版でも128GB統合メモリ内に収まる。
GPT-OSS-120B	✅ 1台（余裕あり）	OpenAI記載では80GB GPUでも可。Spark 128GBなら余裕。
Qwen3-VL-235B-A22B	⚙️ 2台（405B枠内）	Leadtek表記の「2台直結で405B級」範囲に収まる。
Qwen3-Coder-480B DeepSeek V3 / V3.2-Exp（671B total）	❌ 2台では不足	全量実行にはクラスタ／クラウド前提。部分稼働可。

項目	内容	出典
DGX Spark 仕様要点	統合メモリ128GB。FP4換算で最大200B級を想定。	NVIDIA公式資料、販社情報（LEADTEK / ELSA）
2台構成時の性能	「2台直結で405B級」表記あり。	LEADTEK・ELSA販社資料
NVIDIA公式説明	「128GB統合メモリで〜70B微調整」など用途解説。	NVIDIA公式
販社（LEADTEK / ELSA）共通見解	「200Bまで」「2台で405B」などの性能レンジ表現。	LEADTEK, ELSA
初報・価格帯	“Digits”名称で初報。価格は約$3,000台。2台直結構成が報道された。	The Verge

前書き

きっかけと経緯

筆者の環境

一旦選んだローカルLLM

一旦選んだ今後のAPI

導入している環境

ローカルLLM比較一覧（2025年11月02日時点）

DGX Spark換算表（「何台で動く？」感覚）

参考：DGX Sparkハードウェア仕様・販社情報

利用上の注意（MiniMax M2 無料キャンペーンの利用について）

権利とデータの扱いについて

準拠法と紛争解決

プライバシーと情報開示について

周辺の動向（参考情報）

M2モデルをAPIで扱う際の望ましい運用方針

Discussion