😈

お前もCerebras推しにならないか？

2025/08/23に公開

Cerabras が開発する AI システムは、gpt-oss-120B モデルの推論速度において、NVIDIA H100 の後継となる最新世代の GPU B200 より高い性能を叩き出しました。
https://x.com/CerebrasSystems/status/1958951543098810422
時価総額 1 位の NVIDIA よりも優れた AI 製品……。一体どんな仕組みで実現しているのか気になりますよね。ハードウェアについては拙い知識ではありますが、たくさん調べて書きました。今ならリファラルで 200k トークン付与されるので、課金せずに qwen-code や Cline から利用できます。
───────────────────────────────

NVIDIA　なぜお前が　至高の領域に踏み入れないのか　教えてやろう

小さく刻むからだ　繋がねばならぬからだ　汎用 GPU だからだ

───────────────────────────────

 Cerebras とはCerebras Systems Inc. はアメリカのカリフォルニア州に本社を置く AI 企業です。
WSE-3 (Wafer Scale Engine) という巨大な AI チップの設計
その AI チップを搭載した CS-3 という AI システムの販売
さらにその AI システム上で運用する LLM をクラウドサービスとして提供
チップ屋さん・ハード屋さん・クラウド屋さんという、3 つの顔を持つ特異な業態になっています。

 巨大チップに半導体界隈もびっくり
通常、半導体は直径 30 センチのシリコンウェハーから数十個から数百個の小さなチップに「切り分けて」製造されますが、Cerebras は「ウェハーをそのまま 1 枚のチップとして使えば、チップ間の通信が不要になって爆速じゃん」というギャグみたいなアプローチを取りました。

 NVIDIA GPU が支配する AI 市場NVIDIA が時価総額で世界 1 位になったのは、OpenAI や Anthropic などの AI 企業や、Microsoft・Google・Meta・Amazon などの巨大 IT 企業が、生成 AI モデルの学習とサービス提供に欠かせない膨大な計算力を確保するため、NVIDIA の GPU を大量に買い集めているからです。
GPU は「汎用性」を武器の一つに AI 市場を支配していますが、メモリ帯域の不足と GPU 間通信の遅延という解決できない構造的限界があります。
Cerebras はウェハースケールという全く異なる設計思想で、この問題を解決しました。

 GPU のボトルネック解説
 前提知識：トランスフォーマーの動作原理LLM 推論では、入力トークンが数百層のトランスフォーマーレイヤーを順番に通過します。各レイヤーで以下の処理が行われます。
該当レイヤーの重み（パラメータ）を読み込む
トークンと重みを使って計算を実行
結果を次のレイヤーに渡す
モデル全体では数百 GB 〜数 TB のパラメータを持ちますが、実際に同時に必要なのは「1 レイヤー分の重み」だけです。そのため、重みの効率的な管理とレイヤー間通信の最適化が推論性能を左右します。

 ボトルネック１：メモリ帯域
 GPU1兆パラメータ級の LLM は約 2TB の重みを持ち、単一 GPU のメモリ（H100 で 80GB）に収まりません。そのため複数 GPU に分散し、推論時には GPU に隣接する高速メモリ（HBM：High Bandwidth Memory）から逐次読み込む必要があります。しかし H100 の HBM 帯域は 3.35TB/s、H200 でも 4.8TB/s に過ぎず、計算資源の大部分がメモリ転送待ちでアイドル状態になってしまいます。

 Cerebras独自の Weight Streaming 技術でこの課題を回避します。

モデル全体は外部メモリの MemoryX（最大 1.2PB）に格納し、各ステップでは必要な 1 レイヤー分の重みだけをオンチップ SRAM（44GB）に順次ストリーミングします。レイヤー実行中に次のレイヤーの重みを先読みすることで演算とデータ転送を重ね合わせ、処理ユニットが待たされる時間を最小限に抑えます。その結果、オンチップの 21PB/s という膨大な帯域をレイヤー計算に集中して利用でき、GPU のように外部メモリ帯域が律速要因になることを避けています。

 チップ比較

仕様項目
Cerebras WSE-3
NVIDIA GH100


製造プロセス
5nm
4nm

ダイサイズ
46,225 mm²
814 mm²

トランジスタ数
4兆個
800億個

コア数
900,000 PE (AI専用コア)
16,896 CUDAコア / 528 Tensorコア

オンチップメモリ
44 GB (SRAM)
50 MB L2キャッシュ

オンチップメモリ帯域幅
21 PB/s
非公開

ファブリック帯域幅
214 Pb/s（26.75 PB/s）
非公開

!
 SRAM 44 GB !?SRAM なのにオンチップメモリが 44GB もあることに驚いたかもしれません。SRAM といえば CPU や GPU の L1 キャッシュに数十 KB、L2 キャッシュに数十 MB 程度しか使われていないことがほとんです。SRAM は速いが消費面積が大きく電力効率も悪いため、大容量には向かないという物理的制約があるからです。
Cerebras のチップは各 Processing Element（PE）が 48KB の SRAM と直結しており、2 次元メッシュ構造で 90 万個が相互に接続されるので、合計で約 44 GB になります。1 枚のウェハーで実現したオンチップだからこそ、21 PB/s という桁違いのメモリ帯域になるのです。

 システム比較

仕様項目
Cerebras CS-3
NVIDIA DGX H100


搭載チップ
WSE-3 × 1
H100 × 8

システム演算性能
125 PFLOPS
16 PFLOPS

メモリ容量
オンチップ: 44GB (SRAM)
外部メモリ: 1.5TB～1.2PB (MemoryX)
640 GB (80 GB x 8)

メモリ帯域
オンチップ: 21 PB/s (SRAM)
外部メモリ: 非公開 (MemoryX)
HBM3: 3.35 TB/s（1GPUあたり）

システム内接続
26.8 PB/s（オンチップメッシュ）
900 GB/s (NVSwitch)

システム間接続
1.2 TB/s
50 GB/s (InfiniBand)

消費電力
23kW
10.4kW

価格 ($1=145円)
2.9〜4.3億円 (推定値)
0.5億円


 ボトルネック２：GPU 間通信
 GPU巨大モデルを複数 GPU を「繋いで」分散して動かすと、レイヤー毎やテンソル毎の通信が頻発します。同一ノード内の NVLink（H100 世代で約 900GB/s）でさえ計算速度に対して遅く、ノード間の InfiniBand（50GB/s）ではさらに深刻です。パイプライン並列ではバブルが訓練時間の 15-30%（最大 60% 以上）を占め、通信遅延の累積でトークン生成に数百ミリ秒の遅延が生じます。

 CerebrasWSE-3 は 90 万コアを単一チップに搭載し、125 PFLOPS の演算性能を持ちます。1つのモデル推論は単一チップで完結するため、GPU 間通信という問題自体が発生しません。大量のリクエストを並列処理したり訓練を高速化する場合は複数の WSE を使いますが、SwarmX という高速ネットワークが MemoryX から各 WSE へ重みを配信し、勾配を集約します。WSE 同士の相互通信は不要で、各 WSE が独立して処理を行うため、GPU クラスタで必須だった複雑な並列化戦略が不要になります。
https://gihyo.jp/article/2024/09/cerebras-systems-wafer-scale-engine-2024-01

 定額プランの Cerebras Code を提供開始Cerebras がとんでもない性能のハードウェアを作っているという、雰囲気だけでも伝わったでしょうか。この推論性能は、我々ソフトウェアエンジニアがすぐ使えるように、クラウドサービスとしても提供されています。
2025 年 8 月 1 日、Alibaba 開発の Qwen-3-Coder-480B を「Cerebras Code」として月額 50 ドルの定額プランで提供開始したことで、Claude Code など他ツールを使っていた開発者にも徐々に認知されはじめています。

 並列実行よりペアプログラミング最近は Git Worktree を使った並列開発の話はあまり聞かなくなりました。Coding Agent が間違った設計／実装をしないよう、逐一適切な指示を出すペアプログラミング方式が定着してきたからだと思います。
そこで問題になるのが、Coding Agent が推論しているときの待ち時間です。
Claude Code であれば推論に 20 秒かかっていた処理も、Cerebras Code (Qwen-3-Coder-480B) なら（最も条件が整った場合は）1 秒でレスポンスが返ります。20 倍という圧倒的な 2,000TPS の世界を体験してみましょう。

 Referral Link以下の紹介リンクから登録すると Qwen3‑Coder‑480B の利用トークンが、お互いに +200k 付与されます。👇

https://cloud.cerebras.ai?referral_code=mycd8fmp

 Cerebras の API キーを環境変数に登録する方法Cerebras API は OpenAPI 互換なので、OpenAI の環境変数に Cerebras で発行した API キーを登録して使います。

 zsh~/.zshrc
export OPENAI_API_KEY="your-api-key-here"
export OPENAI_BASE_URL="https://api.cerebras.ai/v1"
export OPENAI_MODEL="qwen-3-coder-480b"

 fish-shell~/.config/fish/config.fish
set -gx OPENAI_API_KEY your-api-key-here
set -gx OPENAI_BASE_URL https://api.cerebras.ai/v1
set -gx OPENAI_MODEL qwen-3-coder-480b

仕様項目	Cerebras WSE-3	NVIDIA GH100
製造プロセス	5nm	4nm
ダイサイズ	46,225 mm²	814 mm²
トランジスタ数	4兆個	800億個
コア数	900,000 PE (AI専用コア)	16,896 CUDAコア / 528 Tensorコア
オンチップメモリ	44 GB (SRAM)	50 MB L2キャッシュ
オンチップメモリ帯域幅	21 PB/s	非公開
ファブリック帯域幅	214 Pb/s（26.75 PB/s）	非公開

仕様項目	Cerebras CS-3	NVIDIA DGX H100
搭載チップ	WSE-3 × 1	H100 × 8
システム演算性能	125 PFLOPS	16 PFLOPS
メモリ容量	オンチップ: 44GB (SRAM) 外部メモリ: 1.5TB～1.2PB (MemoryX)	640 GB (80 GB x 8)
メモリ帯域	オンチップ: 21 PB/s (SRAM) 外部メモリ: 非公開 (MemoryX)	HBM3: 3.35 TB/s（1GPUあたり）
システム内接続	26.8 PB/s（オンチップメッシュ）	900 GB/s (NVSwitch)
システム間接続	1.2 TB/s	50 GB/s (InfiniBand)
消費電力	23kW	10.4kW
価格 ($1=145円)	2.9〜4.3億円 (推定値)	0.5億円

Cerebras とは

巨大チップに半導体界隈もびっくり

NVIDIA GPU が支配する AI 市場

GPU のボトルネック解説

前提知識：トランスフォーマーの動作原理

ボトルネック１：メモリ帯域

GPU

Cerebras

チップ比較

システム比較

ボトルネック２：GPU 間通信

GPU

Cerebras

定額プランの Cerebras Code を提供開始

並列実行よりペアプログラミング

Referral Link

Cerebras の API キーを環境変数に登録する方法

zsh

fish-shell

Discussion