NVIDIAのRubin CPXとIntelとの協業発表に関する考察
はじめに
今月(2025年9月)、NVIDIAのデータセンター向けチップについて大きな発表が2つあった。
1つはRubin CPXであり、もう1つはIntelとの協業によってNVIDIA向けにカスタマイズされたCPUの提供を受けることになったことだ。
特に後者の発表が衝撃的であったためいろいろ考えてしまったので、この辺りについて所感を綴りたいと思った次第である。この文章は一次情報を踏まえているがなにぶん一次情報からわかることはそれほど多くないため筆者の推測を多分に含み、今後の発表によっては全くの大外れになり得ることに留意して欲しい。
Rubin CPX
Rubinは2026年後半にリリースされると現在発表されている次期GPUのコードネームだが、2025年9月9日にそれに加えてRubin CPXと呼ばれる新たなGPUが2026年末にリリースされると発表された。
現在のLLM推論の主流の処理方式では、リクエストを解釈して一旦ワーキングメモリである「KVキャッシュ」に保存するPrefillフェーズと、KVキャッシュから応答トークンを生成するDecodeフェーズとの2フェーズ構成となっている。Rubin CPXは通常のRubinを使用したシステムにアドインされPrefillフェーズを担当することになると発表からは読み取れる。これまでの通常型GPUは従来PrefillフェーズもDecodeフェーズも担当していたが、Rubin CPXがアドインされたシステムではPrefillフェーズから解放されDecodeフェーズを担当することになる。
Rubin CPXはNVLinkがなくてPCIe 6.0接続でDRAMはHBMではなくGDDR7となっており、推測するにハードウェア的には次世代デスクトップ製品であるGeForce RTX 6090(仮)と同一なのではと考えている(ROPすらあるという噂だ)。ただし、GeForce RTX 6090(仮)は従来通りなら歩留まり向上のために一部を無効化された製品になるだろうことに対して、Rubin CPXは無効化されていないものになることは考えられる。
つまり通常のRubinから見るとDRAM周りが弱いハードウェアになっているということだ。Prefill処理はボトルネックになるのが主に計算能力であり、DRAM側はボトルネックになりにくいためこのような選択が採れる。GDDRはHBMより消費電力が小さいので、システム全体でとんでもなく電力大食いになりそうなのを少しばかりは抑えられるという意義もあるだろう。
対してDecode処理はボトルネックになるのは主にDRAMの帯域である。なのでHBMは欲しいが処理自体は逐次処理になるので、小さいコアを大量に載せているGPUの計算ユニットの利用率は相対的に低くなる。
つまり並列処理お化けでGPUにさせるのが最善なPrefill処理と違って逐次処理のDecode処理はそれほどGPU向きではないのである。なのでDecode処理にASICを持ってくればかなりの高速化は見込めるし、CPUですらGPUよりマシかもしれないくらいのものだ。
それでもNVIDIAはDecode用にASICは今のところ採用予定はないと考えられる。何故なら推論の現在の主流がPrefill-Decode分割方式なだけで、またすぐの将来には別の処理方式になっていることが十分予想され、そうなった場合でも柔軟に対応できるGPUを推しているからである。また学習も大量の並列処理に支配され、DRAMもヘビーに使われるためHBMを使う通常型GPUはいずれにせよ必要だという理由もある。
| 処理の特徴 | DRAM帯域がたくさん必要か | |
|---|---|---|
| 推論Prefill | 並列処理(GPUが得意) | そんなでもない |
| 推論Decode | 逐次処理(GPUが得意ではない) | たくさん必要 |
| 学習 | 並列処理(GPUが得意) | たくさん必要 |
(表:各処理に必要なもの。従来型のGPUシステムでは推論のPrefillもDecodeも学習も従来型のGPUが行っていたが、Rubin CPXを追加することによってDRAM帯域がそんなに必要ない推論のPrefillはRubin CPXにやらせて従来型のGPUは残りを担当する)
上の発表リンク先を見るとDecodeに使う通常のRubin4つに対してPrefillに使うRubin CPXは8つ。通常のRubinはパッケージの中に2GPU入っているので実際には1:1の比率であるが、おそらくこの構成では通常のRubin側は随分遊ぶことになるだろうと思う。通常のRubinのカットダウン版でもDecode専用に出してくれれば良いが、圧倒的王者たるNVIDIAがわざわざ儲けを減らす行動に出るとは思えない。カットダウンした場合に同じノードを学習用には流用しづらくなるという問題もある。
Intelとの協業
続いて2025年9月18日、NVIDIAとIntelの協業が発表された。
データセンター向けに関してはIntelがNVIDIA向けのカスタムCPUを提供し、NVIDIAのGPUとNVLinkで接続することになる。今回NVLinkとだけ言われているが、CPUとGPUとでDRAMをキャッシュコヒーレンシ付きで共有するためにNVLink-C2Cで接続することになるだろうと思われる。普通に考えるとNVLink Fusionになりそうだが、これだけ大々的に発表したからには、より性能を求めてFusionではないNVLinkにしてきそうな気もする。
NVIDIAは現在ArmアーキテクチャのCPUであるGraceを提供しており、NVIDIAのラックスケールシステムにはこのGraceが必ず付いてくるが、今回の提携でIntelのカスタムCPUも将来選択できるようになる。NVIDIAがArmアーキテクチャのCPUに加えIntelのCPUを求めた理由としてCEOの発言によれば、要はx86 CPUを求めている顧客がいるからということである。プログラムを普段使っているx86からArmに移植するのは大変だからそれは当然わかる話。
この表向きの理由はさておき、NVIDIAの開発している次期ArmアーキテクチャのCPUであるVeraの性能が期待ほどにはならなかったとかあったりするかもしれないがこれは邪推である。ただ、現時点で性能ではx86 CPUと戦えるデータセンター向けArmアーキテクチャのCPUは作るのが難しいと思われるので、これから先AIエージェントが流行ればCPUの仕事が増えることを考えて少しでも強力なCPUを確保したというのは無理のない話ではあるように思う。
さらにここから先は妄想である。先程Rubin CPXの項で「推論のDecode処理はそれほどGPU向きではなく、CPUですらGPUよりマシかもしれない」と述べた。このCPUはHBMをDRAMとして使用できるものが良く、またGPUからはそのHBMを共有できるようにしたい。Decode処理には行列積演算が多く含まれるため、これを高速に処理してくれるならもっと良い。そんなCPUがどこにあるかと言えばIntelのXeon MAXである。Xeon MAXはDRAMはHBMだし、今回の提携でGPUとの共有もできるようになるだろう。拡張命令セットとして行列積演算を行うIntel AMXも持っている。現行世代では素の性能でAMDのCPUには及ばないIntelのCPUだがこれらの点については優位であり、ここにNVIDIAがAMDよりIntelを選ぶ積極的理由が存在する。
今後推論における主流の処理方式が変わってもCPUはGPUより更に柔軟に対応できる上(ただしCPUが得意な処理方式になるかどうかは保証できない)、どうにせよCPUはシステム内に必ず必要なので推論用でも最適としてRubin CPX(か、その後継)とXeon MAXとの組み合わせで売っていく考えも悪いものではないように思える。
いずれにせよ今後数年で現在主流のPrefill-Decode分割やこの先の処理方式に合わせて、どのようにハードウェア構成が変わっていくかは見どころである。
AMDの対応
妄想ついでに一番対応を強いられそうなAMDがどのような対応を採り得るかも考えていく。AMDは対応するのに必要な武器を一応はいろいろ取り揃えており、妄想するのには非常に良い存在なのである。
Prefill専用にRubin CPXのようなGPUの追加投入
Rubin CPXの真似っこをするのはAMDにもチップ面では簡単であろう。デスクトップGPUの次世代であるRDNA 5だかUDNAだか呼ばれている世代にはGeForce RTX 6090(仮)に対抗するデスクトップGPUが存在すると言われており、それを流用すれば同じようにできるはずである。どちらかというとその構成を冷やせる冷却技術があるかの方が問題になるかもしれない。
Decode側の計算能力高すぎじゃないか問題もAMDは安売りできるのは歓迎だろうから減らしてくるだろう。Instinct GPUは8つのXCDで構成されているため、8からいくつまで減らすかで計算能力の調整も技術的に容易である。減らした場合には同じシステムを推論用から学習用に流用すると弱さが気になるだろうが、AMDのシステムは学習用にはあまり使用されていないだろうからそれほど問題にならないかもしれない。
Decode処理専用チップの投入
AMDもCPUをDecode処理に持ってくる可能性を考えると、まず現状ではAMDのEPYCにHBMを使用できないのをどうしかしたい。次世代のZen 6 EPYCからはパッケージングにCoWoSを使用するのではないかと予想されており、その場合はHBMを追加するのは難しい話ではなさそうではある。HBMの追加が間に合わない世代においては3D V-Cacheでキャッシュを山盛りにするのも一時凌ぎにはなる。あるいはInstinctには製品化されていないがMicrosoftにだけ提供されていると言われている、HBMが使えるCPUであるMI300Cがあり、Decode専用で売るならその後継を提供することもあり得る。
Prefill側GPUからCPU側のDRAMが見えるようにするのに必要なキャッシュコヒーレンシについては、UALinkはキャッシュコヒーレンシは持たない、CXLはPCIeベースなので帯域がもう少し欲しいといった事情から、Infinity Fabricをパッケージ外にも伸ばして接続する方向になるかと思う。Prefillを行うGPUとDecodeを行うCPUを同梱したInstinct APUの構成にすればInfinity Fabricをパッケージ外に伸ばす必要はないが、そもそもPrefillとDecodeを別のノードでやらせたいのは、DRAMにロードしたAIモデル(Prefillで必要)とKVキャッシュ(Prefillで書き込みDecodeで読み込む)を両方載せようとするとDRAMが足りないからという要因も大きく、それが解決できない形となるのであまり筋が良くない。
もっともDecode処理とは関係なく、HBMとキャッシュコヒーレンシはInstinct MI400世代にHPC向けだったAPU SKUの噂がなく、HPC専用GPU SKUの噂はあることからMI400世代と組み合わされるZen 6世代で使えるようにしてくるようには思える。
AMDのCPUにはIntel AMXのような行列積演算を行う拡張命令セットがない。x86 Ecosystem Advisory Groupにて現時点でAMDが実装することが決まっているのはFREDとAVX10とAPXでありAMXは含まれていない。つまりAMXは実装することがあったとしてもかなり先の話と考えられる。ただし、x86 Ecosystem Advisory Groupはできたのが最近であるためAMXの採用がそれ以前から行われている可能性もなくはないが。その場合はZen 6にAMXが含まれている可能性ももしかしたらあるかもしれない。
AMXが使えない間は代わりとなる行列積演算器を載せてくることになるだろうか。幸いAMDは行列積演算器としてNPUもGPUのAI Accelerator(NVIDIA GPUにおけるTensorコアに当たるもの)も持っているので、このどちらかをCPUに同梱した形とすれば良さそうである。この場合は行列積演算しかできない行列積演算器に対してCPUがDecode処理のうち行列積演算以外を担当することになる。NPUとGPUのAI Acceleratorとの比較だと消費電力が少ないだろうNPUの方を使いそうな気がする。
Discussion