日本発AIチップLenzoを調べていたら寄り道してRubinにたどり着いた
はじめに
業務自動化Pythonエンジニア。バイブコーディング歴1年 ≒ エンジニア歴。
きっかけ:LFM 2.5を試した
先日、Liquid AIの超小型LLM「LFM 2.5-JP」を試した。
前の記事では「続きをどうぞ」で壊れてダメダメだったけど、他の7BモデルのLLMと比べたら確かに日本語がめちゃめちゃ綺麗だった。
色々調整したらまた面白そう。(これはまた今度)
Lenzoの話を聞いて「何もわかってない」と気づいた
そこから色々流れてくる情報の中で、Lenzoという日本企業の話を初めて聞いた。
この記事を読んだ:
日本発AIチップスタートアップ "Lenzo" - note
この話を聞いて、AIチップについて全く理解していないことに気づいた。
私の理解:
- GPU:言わずもがな、並列処理に強い
- NPU:最近聞かないけど、ローカルLLMに強い?
- TPU:Googleが作ったすごいやつ
- WSE:Cerebrasのやつ。去年から推してる
- Lenzo:...?全くわからない
AIと一緒に調べてみた
というわけで、Claude先生と一緒にAIチップの世界を調べてみた。
AIチップマップ
調べてみたら、こういう世界観だった。
【汎用GPU】
NVIDIA H100/B200 - 学習も推論も何でも、CUDAエコシステム
【クラウド専用ASIC】
Google TPU - 学習特化、Google専用
AWS Trainium - 学習特化、AWS専用(Claudeもここで動いてる)
AWS Inferentia - 推論特化、AWS専用
【スタートアップ・特化型】
Cerebras WSE - 超大規模学習、ウェーハ丸ごと
Groq LPU - 推論特化、爆速(NVIDIAが200億ドルで買収)
Lenzo CGLA - 推論特化、省電力
【エッジ・組み込み】
NPU - スマホやPCに内蔵。Apple Neural Engine、Qualcomm NPUなど
NPU、最近聞かないどころか今やどこにでも入ってた。
気づき1:チップの種類
チップにも種類があることがわかった。
柔軟性 高い ←――――――――――――――→ 低い
GPU CGRA CGLA ASIC
効率 低い ←――――――――――――――→ 高い
GPU CGRA CGLA ASIC
- GPU:何でもできる(汎用)
- CGRA:粗粒度で再構成可能(2次元グリッド)
- CGLA:線形配列でシンプル(Lenzoが採用)
- ASIC:1つの用途に完全特化(Google TPUなど)
気づき2:学習特化と推論特化
AIチップには学習特化と推論特化がある。
| 種類 | 特徴 | 例 |
|---|---|---|
| 学習特化 | 大量データで重みを更新 | Cerebras WSE、AWS Trainium |
| 推論特化 | 学習済みモデルで予測 | Lenzo CGLA、AWS Inferentia、Groq LPU |
なるほど、Cerebrasは学習、Lenzoは推論。そもそも土俵が違った。
やっぱりNVIDIAじゃなく別のアプローチの方がいいのかな?と思ったら...
CUDAという壁
NVIDIAが強いのは、GPUの性能だけじゃなかった。
CUDAというソフトウェアエコシステムが本当の強み。
- TensorFlow、PyTorchなど主要フレームワークがCUDA前提
- 開発者の学習コスト・移行コストが高い
- 「CUDAで動く」というだけで選ばれる
いくらハードウェアが優れていても、CUDAエコシステムに乗れないと採用されにくい。
やっぱりNVIDIA強い。
Lenzoについて
今回の調査のきっかけになった日本発のAIチップスタートアップ。
AI計算では、演算そのものよりもデータ移動に多くの電力が消費される。GPUはメモリアクセスが頻繁に発生する構造で、推論用途ではオーバースペックになりやすい。
Lenzoは「データを動かさない」ことで電力効率を向上。演算ユニットの近くにデータを配置して、長距離メモリアクセスを回避する。
推論特化・省電力。エッジデバイスや電力制約の厳しい環境向け。
参考: 日本発AIチップスタートアップ "Lenzo" - note
他のアプローチおさらい
Google TPU
Googleが自社で作った学習特化チップ。Google専用。
AWS Trainium / Inferentia
AWSが作ったチップ。Trainiumは学習特化、Inferentiaは推論特化。Claudeもここで動いてる。
Cerebras WSE
ウェーハ全体を1つの巨大チップにする。NVIDIA H100の56倍のサイズ。超大規模モデルの学習に特化。
Groq LPU
「決定論的アーキテクチャ」でGPUの2〜10倍のトークン生成速度。推論特化・爆速。
...で、このGroq LPUが面白かった。
LPUの話
Groq LPUについて全く知らなかった。
調べてみたら、とんでもない技術だった。
- GPUは「次に何をするか」を実行時に判断
- LPUは「何をいつやるか」を事前に全部決定
だから遅延が完全に予測可能で、爆速になる。
ちなみに、X社の「Grok」とは全くの別物(名前が似てるだけ)。
NVIDIAがLPUを買収した
2025年12月、NVIDIAがGroqを200億ドルで買収した。
「推論で勝てない」と判断して、技術ごと買ったということ。
Rubinへの道
そして調べていくうちに、最近よく聞く「Rubin」がここに繋がることがわかった。
RubinはNVIDIAの次世代アーキテクチャ。Groqの技術を統合して、学習も推論も両方強化するらしい。
GPU一強時代はまだ続くのかもしれない。
まとめ
LFM 2.5から始まって、AIチップの世界を覗いてみた。
学んだこと:
- NVIDIAの強さはGPU性能だけじゃない。CUDAエコシステムが本当の壁
- チップにはGPU→CGRA→CGLA→ASICという柔軟性/効率のスペクトラムがある
- 学習特化と推論特化で土俵が違う
- Groq LPUはNVIDIAが200億ドルで買収するほどの技術だった
- そしてRubinへ繋がる
挑戦者たちの「別の山を登る」戦略は面白い。でもNVIDIAは技術を買収して取り込んでいく。
AIチップの世界、もっと勉強していきたい。
Discussion