VRAM(ビデオメモリ)32GBのローカルLLM環境(AI PC)をコスパ重視で構築してみる
ローカルでそれなりに使えるLLM環境(AI PC)を用意してみようと思い、それならVRAMはやはり32GBは欲しいなということで、コスパ重視の構成を考えて実際に構築してみたという内容になります。
※2026/04時点での情報です。
- コスパ重視
- VRAM 32GBは欲しい
- NVIDIA GPU
NVIDIA GeForce RTX 5060 Ti 16GB x2という選択肢
NVIDIAのGPUで32GBのVRAMを用意しようとすると、選択肢としてはお値段約60万ほど(かそれ以上)のRTX 5090になるかと思います。お高い。。。
ただ今回はコスパ重視ということで、RTX 5060 Ti 16GBを2枚刺しするという構成にチャレンジしてみました。
調べた感じ、性能よりもメモリ容量が重要そうだったので。
一応モデル毎のスペックをまとめると下記。
| モデル | VRAM | メモリバス幅,帯域 | TGP | お値段 | インターフェース |
|---|---|---|---|---|---|
| RTX 5090 | 32GB | 512bit, 1792GB/s | 575W | 60万 | PCIe 5.0 x16 |
| RTX 5080 | 16GB | 256bit, 960GB/s | 360W | 22万 | PCIe 5.0 x16 |
| RTX 5070 Ti | 16GB | 256bit, 896GB/s | 300W | 17万 | PCIe 5.0 x16 |
| RTX 5060 Ti | 16GB | 128bit, 448GB/s | 180W | 10万 | PCIe 5.0 x8 |
RTX 5060 TiをRTX 5090と比べると、
- スペック面では約1/4
スペックで劣るのはしょうがない(それよりもメモリ容量 - 2枚刺しなら32GBのVRAMを確保可能
メモリ容量だけ見れば、32GBを約20万で確保できるコスパ -
RTX 5060 TiはPCIe 5.0 x8で動作可能
2枚刺しに最適(理由は後述) - TGPが2枚刺しでも360W(180W x2)ですむ
電気代もそうですが、ワット数が低ければ発熱も抑えられます
グラボを2枚刺しする際のマザボの選択肢(注意点)
グラボを2枚刺すので、PCIe 5.0のスロットが2つ必要ということはもちろんですが、その他にも注意点があるのでまとめておきます。
利用する2つのPCIeスロットがCPU直結で「x8 / x8」で動作すること
例えばIntel Z890チップセットだと、CPU直結のPCIe 5.0レーンは20本という仕様になっており、PCIe 5.0 x16の形状のスロットが2つあったとしても、それぞれのスロットがx16で動作することはできません。
20という制限があるので、「x16 / x4」や「x8 / x8」という組み合わせで動作することになります。
そして気を付けないといけないのが、ほとんどのマザボは「x8 / x8」の動作をサポートしていないという点です。
それなりのお値段(5万)以上のマザボでないとサポートしていないので、ここはしっかりと事前に確認してください。
ほとんどのマザボは「x16 / x4」での動作になってしまうので、2枚刺した際に片方がx4となっていまいボトルネックになってしまいます。
あと、対象のPCIeがCPU直結のスロットであること。
PCIeスロットはCPU直結とチップセット経由の2種類があり、チップセット経由だとCPUとチップセットを繋ぐ帯域がボトルネックになってしまうので。
PCIe5.0のx8以上だと基本的にCPU直結な気もしますが。
スペックを確認すれば、下記のように記載があるはずです。
PCI_E1 Gen PCIe 5.0 supports up to x16 (From CPU)
PCI_E2 Gen PCIe 5.0 supports up to x8 (From CPU)
PCI_E3 Gen PCIe 4.0 supports up to x4 (From Chipset)
下記マザボなどはCPU直結の「x8 / x8」の動作をサポートしてます。
- MSI MPG Z890 CARBON WIFI
- ASUS ProArt Z890-CREATOR WIFI
自分はMSI MPG Z890 CARBON WIFIにしました。
確かサポートしているマザボの中では比較的安かったようなw
そしてここで下記記述に触れておきますが、
RTX 5060 TiはPCIe 5.0 x8で動作可能
2枚刺しに最適(理由は後述)
2枚刺しは「x8 / x8」で動作させることから、それ以上(x16など)をサポートするグラボはオーバースペックなので、x8で十分なRTX 5060 Tiが最適という話になります。
マザボ(特に下段)の物理的な干渉に注意する
RTX 5060 Tiとはいえ、2スロット厚が基本だと思います。
自分が購入したGeForce RTX 5060 Ti 16G VENTUS 2X OC WHITE PLUSもそうでした。
で、いざ組み立てた際にグラボは2枚とも刺さったのですが、ここで衝撃の事実が、、、
2枚目(下段)を刺してしまうとマザボのPCIe補助電源が刺せないと。。。
下記マザボの画像を見てもらえば分かるかと思います。
https://jp.msi.com/Motherboard/MPG-Z890-CARBON-WIFI/Overview
ちなみにもう少しお高いASUS ProArt Z890-CREATOR WIFIのほうは大丈夫そう。
https://www.asus.com/jp/motherboards-components/motherboards/proart/proart-z890-creator-wifi/
グラボが多少丸みを帯びているので多少の隙間はあったのですが、補助電源ケーブルを垂直に刺すのはどうしても無理な状況でした。
これはさすがに詰んだと思ったのですが、ここでグラボ用に購入しておいたEZDIY-FAB PCI Express用 電源変換アダプタ Uターン型が救ってくれました。
これは本来グラボなどに取り付けて、補助電源ケーブルを後ろに回すものなのですが、これを2つ連結してマザボの補助電源コネクタに取り付けることで、わずかな隙間から横に逃がすことに成功しました。
という感じで事なきを得たのですが、同じ構成をお考えの方はご注意ください。
その他の構築ポイント
基本的に前述したグラボとマザボの選定を間違えなければ2枚刺し構成でPCを組み立てられると思います。
あとは、
- 電源は余裕をもって1000W電源
800Wぐらいでも足りるとは思いますが - ケース内のエアフローはきちんと確保する
2枚刺しは熱が籠るので - Ubuntuを利用するなら25.10(最新を
パーツ構成的に新しく、かつ高スペックマザボとなると5Gbps LANなどを積んでいるので、LTSの24.04などだとカーネルがそのあたりを認識できない可能性があるので。
OllamaでGemma4 26bを動かしてみる
構築したPCで試しに、OllamaでGemma4 26b(コンテキストサイズ4KB)を動かしてみます。
# ollama ps
NAME ID SIZE PROCESSOR CONTEXT UNTIL
gemma4:26b 5571076f3d70 24 GB 100% GPU 4096 29 minutes from now
$ nvidia-smi
Tue Apr 14 21:08:16 2026
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 590.48.01 Driver Version: 590.48.01 CUDA Version: 13.1 |
+-----------------------------------------+------------------------+----------------------+
| GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|=========================================+========================+======================|
| 0 NVIDIA GeForce RTX 5060 Ti On | 00000000:01:00.0 Off | N/A |
| 0% 44C P1 69W / 150W | 12162MiB / 16311MiB | 40% Default |
| | | N/A |
+-----------------------------------------+------------------------+----------------------+
| 1 NVIDIA GeForce RTX 5060 Ti On | 00000000:02:00.0 Off | N/A |
| 0% 40C P1 84W / 150W | 12580MiB / 16311MiB | 52% Default |
| | | N/A |
+-----------------------------------------+------------------------+----------------------+
+-----------------------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=========================================================================================|
| 0 N/A N/A 2713968 C /usr/bin/ollama 12152MiB |
| 1 N/A N/A 2713968 C /usr/bin/ollama 12570MiB |
+-----------------------------------------------------------------------------------------+
2枚のグラボを使用してVRAMを24GBほど使っています。
「あなたは何ができる?」という問いに対しての生成速度は下記。
これだけの速度が出れば問題ないかなと。

GPUの電力制限(おまけ)
↑に張り付けたnvidia-smiの内容で150Wとなっているのは、自分が意図的に電力上限を180W→150Wに変更している為です。
自分はCPUも含めてよくやるのですが、電力上限を80%程に設定しても95%程の性能を発揮できることがほとんどなので。(消費電力と性能の関係は単純な比例ではないので。
あと発熱も抑えられます。
150W制限に変更するコマンドは下記。
nvidia-smi -pl 150
再起動するとデフォルトに戻るので、永続化したいならCronに下記設定。
@reboot nvidia-smi -pm 1 && nvidia-smi -pl 150
Discussion