お前もCerebras推しにならないか?
Cerabras が開発する AI システムは、gpt-oss-120B モデルの推論速度において、NVIDIA H100 の後継となる最新世代の GPU B200 より高い性能を叩き出しました。
時価総額 1 位の NVIDIA よりも優れた AI 製品……。一体どんな仕組みで実現しているのか気になりますよね。ハードウェアについては拙い知識ではありますが、たくさん調べて書きました。今ならリファラルで 200k トークン付与されるので、課金せずに qwen-code や Cline から利用できます。
───────────────────────────────
NVIDIA なぜお前が 至高の領域に踏み入れないのか 教えてやろう
小さく刻むからだ 繋がねばならぬからだ 汎用 GPU だからだ
───────────────────────────────
Cerebras とは
Cerebras Systems Inc. はアメリカのカリフォルニア州に本社を置く AI 企業です。
- WSE-3 (Wafer Scale Engine) という巨大な AI チップの設計
- その AI チップを搭載した CS-3 という AI システムの販売
- さらにその AI システム上で運用する LLM をクラウドサービスとして提供
チップ屋さん・ハード屋さん・クラウド屋さんという、3 つの顔を持つ特異な業態になっています。
巨大チップに半導体界隈もびっくり
通常、半導体は直径 30 センチのシリコンウェハーから数十個から数百個の小さなチップに「切り分けて」製造されますが、Cerebras は「ウェハーをそのまま 1 枚のチップとして使えば、チップ間の通信が不要になって爆速じゃん」というギャグみたいなアプローチを取りました。
NVIDIA GPU が支配する AI 市場
NVIDIA が時価総額で世界 1 位になったのは、OpenAI や Anthropic などの AI 企業や、Microsoft・Google・Meta・Amazon などの巨大 IT 企業が、生成 AI モデルの学習とサービス提供に欠かせない膨大な計算力を確保するため、NVIDIA の GPU を大量に買い集めているからです。
GPU は「汎用性」を武器の一つに AI 市場を支配していますが、メモリ帯域の不足と GPU 間通信の遅延という解決できない構造的限界があります。
Cerebras はウェハースケールという全く異なる設計思想で、この問題を解決しました。
GPU のボトルネック解説
前提知識:トランスフォーマーの動作原理
LLM 推論では、入力トークンが数百層のトランスフォーマーレイヤーを順番に通過します。各レイヤーで以下の処理が行われます。
- 該当レイヤーの重み(パラメータ)を読み込む
- トークンと重みを使って計算を実行
- 結果を次のレイヤーに渡す
モデル全体では数百 GB 〜数 TB のパラメータを持ちますが、実際に同時に必要なのは「1 レイヤー分の重み」だけです。そのため、重みの効率的な管理とレイヤー間通信の最適化が推論性能を左右します。
ボトルネック1:メモリ帯域
GPU
1兆パラメータ級の LLM は約 2TB の重みを持ち、単一 GPU のメモリ(H100 で 80GB)に収まりません。そのため複数 GPU に分散し、推論時には GPU に隣接する高速メモリ(HBM:High Bandwidth Memory)から逐次読み込む必要があります。しかし H100 の HBM 帯域は 3.35TB/s、H200 でも 4.8TB/s に過ぎず、計算資源の大部分がメモリ転送待ちでアイドル状態になってしまいます。
Cerebras
独自の Weight Streaming 技術でこの課題を回避します。
モデル全体は外部メモリの MemoryX(最大 1.2PB)に格納し、各ステップでは必要な 1 レイヤー分の重みだけをオンチップ SRAM(44GB)に順次ストリーミングします。レイヤー実行中に次のレイヤーの重みを先読みすることで演算とデータ転送を重ね合わせ、処理ユニットが待たされる時間を最小限に抑えます。その結果、オンチップの 21PB/s という膨大な帯域をレイヤー計算に集中して利用でき、GPU のように外部メモリ帯域が律速要因になることを避けています。
チップ比較
仕様項目 | Cerebras WSE-3 | NVIDIA GH100 |
---|---|---|
製造プロセス | 5nm | 4nm |
ダイサイズ | 46,225 mm² | 814 mm² |
トランジスタ数 | 4兆個 | 800億個 |
コア数 | 900,000 PE (AI専用コア) | 16,896 CUDAコア / 528 Tensorコア |
オンチップメモリ | 44 GB (SRAM) | 50 MB L2キャッシュ |
オンチップメモリ帯域幅 | 21 PB/s | 非公開 |
ファブリック帯域幅 | 214 Pb/s(26.75 PB/s) | 非公開 |
システム比較
仕様項目 | Cerebras CS-3 | NVIDIA DGX H100 |
---|---|---|
搭載チップ | WSE-3 × 1 | H100 × 8 |
システム演算性能 | 125 PFLOPS | 16 PFLOPS |
メモリ容量 | オンチップ: 44GB (SRAM) 外部メモリ: 1.5TB~1.2PB (MemoryX) |
640 GB (80 GB x 8) |
メモリ帯域 | オンチップ: 21 PB/s (SRAM) 外部メモリ: 非公開 (MemoryX) |
HBM3: 3.35 TB/s(1GPUあたり) |
システム内接続 | 26.8 PB/s(オンチップメッシュ) | 900 GB/s (NVSwitch) |
システム間接続 | 1.2 TB/s | 50 GB/s (InfiniBand) |
消費電力 | 23kW | 10.4kW |
価格 ($1=145円) | 2.9〜4.3億円 (推定値) | 0.5億円 |
ボトルネック2:GPU 間通信
GPU
巨大モデルを複数 GPU を「繋いで」分散して動かすと、レイヤー毎やテンソル毎の通信が頻発します。同一ノード内の NVLink(H100 世代で約 900GB/s)でさえ計算速度に対して遅く、ノード間の InfiniBand(50GB/s)ではさらに深刻です。パイプライン並列ではバブルが訓練時間の 15-30%(最大 60% 以上)を占め、通信遅延の累積でトークン生成に数百ミリ秒の遅延が生じます。
Cerebras
WSE-3 は 90 万コアを単一チップに搭載し、125 PFLOPS の演算性能を持ちます。1つのモデル推論は単一チップで完結するため、GPU 間通信という問題自体が発生しません。大量のリクエストを並列処理したり訓練を高速化する場合は複数の WSE を使いますが、SwarmX という高速ネットワークが MemoryX から各 WSE へ重みを配信し、勾配を集約します。WSE 同士の相互通信は不要で、各 WSE が独立して処理を行うため、GPU クラスタで必須だった複雑な並列化戦略が不要になります。
定額プランの Cerebras Code を提供開始
Cerebras がとんでもない性能のハードウェアを作っているという、雰囲気だけでも伝わったでしょうか。この推論性能は、我々ソフトウェアエンジニアがすぐ使えるように、クラウドサービスとしても提供されています。
2025 年 8 月 1 日、Alibaba 開発の Qwen-3-Coder-480B を「Cerebras Code」として月額 50 ドルの定額プランで提供開始したことで、Claude Code など他ツールを使っていた開発者にも徐々に認知されはじめています。
並列実行よりペアプログラミング
最近は Git Worktree を使った並列開発の話はあまり聞かなくなりました。Coding Agent が間違った設計/実装をしないよう、逐一適切な指示を出すペアプログラミング方式が定着してきたからだと思います。
そこで問題になるのが、Coding Agent が推論しているときの待ち時間です。
Claude Code であれば推論に 20 秒かかっていた処理も、Cerebras Code (Qwen-3-Coder-480B) なら(最も条件が整った場合は)1 秒でレスポンスが返ります。20 倍という圧倒的な 2,000TPS の世界を体験してみましょう。
Referral Link
以下の紹介リンクから登録すると Qwen3‑Coder‑480B の利用トークンが、お互いに +200k 付与されます。👇
Cerebras の API キーを環境変数に登録する方法
Cerebras API は OpenAPI 互換なので、OpenAI の環境変数に Cerebras で発行した API キーを登録して使います。
zsh
export OPENAI_API_KEY="your-api-key-here"
export OPENAI_BASE_URL="https://api.cerebras.ai/v1"
export OPENAI_MODEL="qwen-3-coder-480b"
fish-shell
set -gx OPENAI_API_KEY your-api-key-here
set -gx OPENAI_BASE_URL https://api.cerebras.ai/v1
set -gx OPENAI_MODEL qwen-3-coder-480b
Discussion