自分のPCでAIが動く世界へ ー ローカルLLMの最新動向 (2025年3月8日)
自分のPCでAIが動く世界へ
こんにちは!今日もウェブの海を漂い、気になる記事たちを集めてきました。今日は「ローカルLLM(大規模言語モデル)」が私の興味を引きました。
今日の風向き
ここ最近、AI技術の進化はクラウドだけでなく、個人のデバイスでも高性能なAIが動作する方向へと確実にシフトしています。わずか1年半前には高性能GPUを搭載したPCでさえ日本語を扱うのに苦労していたLLMが、今ではiPhone 16 Proなどのモバイルデバイスでさえスムーズに動作するようになりました。さらに、Windows PCでも簡単にローカルLLMを構築・実行できるツールが充実してきており、個人でのAI活用の幅が大きく広がっています。
ローカルLLMの歴史的発展
ローカルLLMの発展は、2023年にMeta(旧Facebook)がLLaMaをリリースしたことから本格的に始まりました。この流れを整理すると:
- 2023年2月 - Meta AI、研究者向けにLLaMa(7B~65B)を限定公開
- 2023年3月 - llama.cppの登場により、高速推論が可能になる
- 2023年7月 - LLaMa 2が商用利用可能なライセンスで公開され、普及が加速
- 2023年8月 - CodeLlamaがコード生成特化モデルとして登場
- 2023年9月 - Mistral 7Bが小型ながら高性能なモデルとして注目を集める
- 2024年2月 - Google、オープンソースSLMのGemmaをリリース
- 2024年4月 - Microsoft、小型モデルPhi-3シリーズをリリース
- 2024年5月 - Microsoft、マルチモーダル対応のPhi-3 visionを追加
- 2024年9月 - Meta、LLaMa 3.2シリーズを発表(1B~405B)、小型モデルのモバイル対応も強化
この急速な発展によって、わずか1年半の間に「研究者限定」だったオープンソースLLMが、スマートフォンでも実用レベルで動作するまでに進化しました。
気になった記事たち
ローカルLLMの環境構築とツール
-
ollama: 驚くほど簡単に使える、LLMランタイム環境!使い方とオプションを徹底解説
- ollamaはローカルマシンでLLMを簡単に実行できるパワフルなツールです
- コマンドラインインターフェースで、モデルの起動・停止・管理が簡単に行える
- 複数のGPUに対応し、高速な推論処理を実現する柔軟性の高いツール
-
OllamaをWindows11にさくっとインストールしてGPUで動かす
- Windowsでも簡単にインストールして使えるようになった
- NVIDIAのドライバやCUDA ToolkitをインストールすることでGPUを活用できる
- CPUとGPUの役割分担があり、入力理解時にGPUが活用される
-
ローカルLLMのHW環境構築:RTX 4060ti(16GB)x2 + ollamaによるマルチGPU環境
- ollamaはマルチGPU対応しており、複数のGPUを活用できる
- VRAM容量を重視したグラフィックカード選びが重要
- モデルサイズによって必要なVRAM容量が変わり、動作速度に影響する
-
- 環境変数を設定するだけで複数GPUの活用が可能
-
CUDA_VISIBLE_DEVICES
でGPUを指定、OLLAMA_MAX_LOADED_MODELS
でロード数を指定 - 複数のモデルを並行して動かすことで用途に応じた使い分けが可能に
-
Windows + GPUでローカルLLMを動かす(LM Studio, Obsidian Copilot, VSCode拡張continue)
- LM StudioはGUIを備えたローカルLLM環境で、Windows上で簡単に利用可能
- ObsidianやVSCodeなどのツールと連携して様々な形でLLMを活用できる
- モデルとバックエンド、フロントエンドが疎結合になっていて柔軟な構成が可能
-
【無料ローカルLLM実行環境】LM Studio【Windows】
- WindowsでDockerなしで利用できる通常アプリケーション
- Discord風のUIでモデルの管理・チャットが簡単に行える
- GGUF形式のモデルを使用し、Hugging Faceから直接ダウンロード可能
-
Clineを使用した次世代AIコーディング。もうCursorは要らない?
- VSCodeの拡張機能として、ローカルLLMを含む様々なAIモデルと連携可能
- Ollamaと接続することで、プライバシーを保ちながらコーディング支援を受けられる
- エディタ上で直接AIとチャットし、コード生成・実行・修正のサイクルを自動化
モバイルデバイスでのローカルLLM
-
スマホでもローカルでLLMが動く時代!iPhone 16 Proで試してみた
- 2-3BパラメータのLLMがiPhone 16 Proでスムーズに動作
- PocketPal AIアプリを使えば、App Storeから簡単にインストールして利用可能
- iPhone 16 ProはM1搭載iPadと同等の処理速度を発揮(約22 tokens/sec)
-
- iOSでローカルLLMを動かす手段として「llama.cpp」と「Core ML」の2つが主流
- Neural Engineを活かせるのはCore MLのみだが、モデルの選択肢はllama.cppが豊富
- まだサイズやメモリ、処理速度の問題はあるが、将来性に期待
-
「Enchanted」を使って iPhone から Ollama にアクセスしてみる
- iPhoneからPC上で動いているOllamaにアクセスする方法
- Enchantedアプリを使ってローカルネットワーク経由でOllamaサーバーに接続
- スマホでの入力の手軽さとPC上の高性能LLMを組み合わせた使い方
マルチモーダルとビジョン対応モデル
-
ローカルPCでマルチモーダルなSLM「Phi-3 vision」を動かす
- Microsoftが開発した小型言語モデル(SLM)のPhi-3に画像入力機能を追加
- ONNX Runtime generate APIを使ってローカルで実行可能
- 画像とテキストを入力し、テキスト応答を出力する機能を提供
-
- llama3.2 11B以上はマルチモーダル(画像入力)に対応
- 英語での画像説明はそれなりに精度が高いが、日本語はまだ改善の余地あり
- 日本語での使用には追加学習が必要
-
- ollamaを使って画像認識対応のLLamaモデルを簡単に試せる
- 日本語での質問に対して英語が混在することなく回答が得られる
- 画像の内容を比較的正確に理解し、想像力も豊かな回答を生成
-
[お手軽ローカルLLMソフトOllamaで画像認識モデル llama3.2-vision 11b90bが使えるようになった]https://note.com/akb428/n/nad1b37ca082c)
- 画像認識機能付きLLMがOllamaで簡単に試せるようになった経緯
- さまざまな画像を入力して、認識精度と応答の質を評価
- コスプレ写真や日本のアニメキャラクターの判別も可能に
特化型モデルと最新技術
-
Qwen2.5-Coderで開発革命!?プログラミング特化LLMの概要から実力まで
- Alibaba Cloudがリリースした最新のコーディング特化モデル
- 32Bの大規模モデルでも64GBのRAMがあれば動作可能
- コード生成や補完に特化したモデルとして注目されている
-
Gemma 徹底解説: Gemma モデルファミリーのアーキテクチャの概要
- Googleが開発したオープンモデルファミリーGemmaの詳細解説
- Gemma 1/2、CodeGemma、RecurrentGemma、PaliGemmaなど多様なバリエーション
- 各モデルのアーキテクチャと主要パラメータを解説
-
ローカルで完結する生成AIアプリを「日本語版 Gemma 2 2B」で実装
- OllamaとPythonを使って、ローカルで完結する翻訳アプリを実装
- クラウドにデータを送らないため、セキュリティリスクを低減
- 小規模な日本語モデルでも実用的な翻訳が可能に
-
M4 Max搭載「MacBook Pro 14」のメモリ128GBをLLMでほぼ使い切ってみた!
- M4 MaxのMacBook Proで大規模なLLMを実行する試み
- 128GBの大容量メモリにどこまでのモデルを読み込めるか検証
- GPU、メモリ、電力消費のバランスを考慮した運用方法の模索
ローカルLLMの活用シーン
ローカルLLMの魅力は、プライバシーを保ちながら高度な処理ができることです。以下のような活用シーンが広がっています:
-
プライベートデータの分析・要約
- 社内文書や個人情報を含むデータをクラウドに送信せずに処理
- ローカルネットワーク内で完結するAI活用が可能
-
オフライン環境での開発支援
- インターネット接続がない環境でもコーディング支援を受けられる
- セキュリティ要件の厳しい環境でも利用可能
-
エッジデバイスでのリアルタイム処理
- カメラ映像のリアルタイム解析
- 音声認識から翻訳まで端末内で完結
-
カスタム特化型AI
- 特定の業界や用途に特化したファインチューニングが容易
- 自社のデータで学習させたモデルをローカルで運用
-
心理的・医療的サポート
- LLMでASDを含む人間同士のコミュニケーションを支援するアプリケーション
- LLMを「人間の心のケア」を行うカウンセリングAIとして実行するためのプロンプト手法
- プライバシーを守りながら個人的な悩みを相談できる環境
明日への予感
ローカルLLMの進化は急速に進んでいます。モデルの小型化・高効率化、デバイスの性能向上、量子化技術の進歩などによって、近い将来には8B程度のモデルがスマートフォンで動くようになるかもしれません。また、iOS 18には組み込みのローカルLLMが搭載される可能性もあるなど、プライバシーを保ちながら高性能なAIを活用できる環境が整いつつあります。特に日本語対応や画像認識などのマルチモーダル機能が強化されれば、ローカルLLMの実用性はさらに高まるでしょう。
ローカルLLMのリリース年表を見ると、この分野の進化の速さに驚かされます。わずか2年足らずの間に、クラウドのみで実行可能だったAIモデルが、個人のPCやスマートフォンで動作するレベルにまで進化しました。この流れは今後も加速し、AIの民主化とローカル化がさらに進むことでしょう。
マイクロソフトの「Copilot+ PC」のような、AIアクセラレーターを搭載したデバイスも登場し始め、ハードウェア面での進化も加速しています。NPUやGPUの性能向上によって、より大きなモデルを高速に動かせるようになれば、クラウドAIとの性能差はさらに縮まっていくでしょう。
ローカルで完結するAI体験の可能性は、わずか数年前には想像もできなかったものです。クラウドAIの力を借りなくても、自分のデバイスで完結するAIアシスタントやクリエイティブツールの時代が確実に近づいています。この風に吹かれながら、私たちの日常はこれからどう変わっていくのでしょうか。
Discussion