LLM Architecture Gallery徹底解説:30+モデルの内部構造を4軸で横断比較する
LLM Architecture Gallery徹底解説:30+モデルの内部構造を4軸で横断比較する
この記事でわかること
- Sebastian RaschkaのLLM Architecture Galleryの全体像と活用方法
- MHA→GQA→MLA→Linear Attentionへ至るアテンション機構の進化と各方式の設計意図
- QK-Norm・RMSNorm・NoPEなど正規化・位置エンコーディングの選択基準
- Mixture-of-Experts(MoE)設計の分類と、密モデルとの使い分け判断基準
- 2026年3月時点のフロンティアモデル(Qwen3.5、Kimi K2.5、GLM-5等)のアーキテクチャ上の共通点と差異
対象読者
- 想定読者: 中級〜上級のML/AIエンジニア・研究者
-
必要な前提知識:
- Transformerの基本構造(Self-Attention、FFN、残差接続)の理解
- PyTorchまたはJAXでの基本的な実装経験
- KVキャッシュの概念と推論時のメモリ制約の基礎知識
結論・成果
LLM Architecture Galleryは、GPT-2 XL(1.5B)からQwen3.5(397B)、Ling 2.5(1T)まで30以上のオープンウェイトモデルを統一フォーマットで一覧化したリファレンスです。公開24時間で101K viewsを記録し、Hacker Newsでも活発な議論が展開されました。
本記事では、このGalleryをもとにアテンション機構・位置エンコーディング・正規化手法・MoE設計の4軸でモデルを横断比較します。たとえば、DeepSeek V3のMLA(Multi-Head Latent Attention)はKVキャッシュを従来比28倍圧縮(213.5GB→7.6GB)しています。MLAを初めて導入したDeepSeek-V2では、DeepSeek 67B比で推論スループットが5.76倍に向上したと報告されています。一方、Qwen3.5やKimi Linearが採用するGated DeltaNet(線形注意)は、KVキャッシュが固定サイズのためコンテキスト長に対してメモリが定数という特性を持ちます。
これらの設計トレードオフを理解することで、モデル選定やファインチューニング戦略の判断材料を得られます。
LLM Architecture Galleryの全体像を把握する
Galleryの構成と使い方
Sebastian Raschkaが2026年3月に公開したLLM Architecture Galleryは、以下の要素で構成されています。
- アーキテクチャ図: 各モデルのデコーダーブロック構造をクリック可能な高解像度図で表示
- ファクトシート: パラメータ数・活性パラメータ数・アテンション方式・語彙サイズ・コンテキスト長を統一フォーマットで一覧化
-
外部リンク: 各モデルの
config.json、テクニカルレポート、スクラッチ実装(利用可能な場合)へのリンク - コンセプト解説: GQA・MLA・SWA・QK-Norm・NoPE・Gated DeltaNetなどの概念説明
このGalleryは、以下の記事群のアーキテクチャ図を一箇所に集約したものです。
- The Big LLM Architecture Comparison: GPT-2からDeepSeek V3までの密・MoEモデル比較
- From DeepSeek V3 to V3.2: スパースアテンションとRL更新の技術詳細
- A Dream of Spring for Open-Weight LLMs: 2026年1〜2月リリースの10アーキテクチャ
収録モデルの全体マップ
Galleryに収録された30以上のモデルを、パラメータ規模とアーキテクチャ種別で分類すると以下のようになります。
| 規模 | 密モデル | MoEモデル | ハイブリッド |
|---|---|---|---|
| 小型(〜4B) | Gemma 3 (270M), Llama 3.2 (1B), Qwen3 (4B) | — | Nemotron 3 Nano (4B, Mamba-2) |
| 中型(7B〜32B) | OLMo 3 (7B), Llama 3 (8B), Qwen3 (8B/32B), Gemma 3 (27B), Mistral Small 3.1 (24B) | GPT-OSS (20B) | xLSTM (7B, mLSTM) |
| 大型(100B〜400B) | — | GPT-OSS (120B), Qwen3 (235B-A22B), GLM-4.5 (355B), Grok 2.5 (270B), Llama 4 Maverick (400B), Qwen3.5 (397B-A17B) | Nemotron 3 Super (120B, Mamba-2+GQA) |
| 超大型(500B〜) | — | DeepSeek V3 (671B), Mistral Large 3 (673B), GLM-5 (744B), Kimi K2 (1T), Ling 2.5 (1T) | — |
注意点: この表はGalleryの2026年3月27日時点の収録内容に基づきます。Galleryは継続的に更新されているため、最新の収録状況は公式ページを確認してください。
アテンション機構の進化を横断比較する
アテンション機構はLLMの性能とメモリ効率を決定する中核コンポーネントです。Galleryに収録されたモデルを追うと、MHA→GQA→MLA→Linear Attentionという明確な進化の流れが見えてきます。
MHAからGQAへ:KVキャッシュ削減の第一歩
Multi-Head Attention(MHA) は、各ヘッドが独立したQuery・Key・Value投射を持つ設計です。GPT-2 XLやOLMo 2がこの方式を採用しています。
Grouped-Query Attention(GQA) は、複数のQueryヘッドが同一のKey-Value投射を共有することでKVキャッシュを削減します。Llama 3(8B)から大半の現代モデルが採用しており、Galleryでも最も多く登場する方式です。
# GQAの概念的な実装(PyTorch風の擬似コード)
# heads.py
import torch
import torch.nn as nn
class GroupedQueryAttention(nn.Module):
"""GQA: 複数のQueryヘッドがKey-Valueグループを共有"""
def __init__(self, d_model: int, n_heads: int, n_kv_groups: int):
super().__init__()
self.n_heads = n_heads
self.n_kv_groups = n_kv_groups
self.head_dim = d_model // n_heads
# Queryは全ヘッド分、KVはグループ数分のみ
self.q_proj = nn.Linear(d_model, n_heads * self.head_dim, bias=False)
self.k_proj = nn.Linear(d_model, n_kv_groups * self.head_dim, bias=False)
self.v_proj = nn.Linear(d_model, n_kv_groups * self.head_dim, bias=False)
self.o_proj = nn.Linear(n_heads * self.head_dim, d_model, bias=False)
def forward(self, x: torch.Tensor) -> torch.Tensor:
B, T, _ = x.shape
q = self.q_proj(x).view(B, T, self.n_heads, self.head_dim)
k = self.k_proj(x).view(B, T, self.n_kv_groups, self.head_dim)
v = self.v_proj(x).view(B, T, self.n_kv_groups, self.head_dim)
# KVグループを繰り返してQuery数に合わせる
repeats = self.n_heads // self.n_kv_groups
k = k.repeat_interleave(repeats, dim=2) # ← ここがGQAの核心
v = v.repeat_interleave(repeats, dim=2)
# 標準的なScaled Dot-Product Attention
q, k, v = [t.transpose(1, 2) for t in (q, k, v)]
attn = torch.nn.functional.scaled_dot_product_attention(q, k, v, is_causal=True)
attn = attn.transpose(1, 2).contiguous().view(B, T, -1)
return self.o_proj(attn)
GQAのKVキャッシュ削減率は、KVグループ数とヘッド数の比で決まります。たとえばLlama 3(8B)は32ヘッドに対して8 KVグループ(4:1比)で、KVキャッシュをMHA比で75%削減しています。
MLAへの飛躍:低次元潜在空間での圧縮
Multi-Head Latent Attention(MLA) は、DeepSeekチームが提案した方式です。GQAがKVヘッドの「共有」でメモリを削減するのに対し、MLAはKeyとValueを低次元の潜在空間に圧縮してからKVキャッシュに格納します。推論時にはこの圧縮テンソルを元の次元に射影して使用します。
# MLAの概念的な実装(PyTorch風の擬似コード)
# mla.py
import torch
import torch.nn as nn
class MultiHeadLatentAttention(nn.Module):
"""MLA: KeyとValueを低次元潜在空間に圧縮してキャッシュ"""
def __init__(self, d_model: int, n_heads: int, d_latent: int):
super().__init__()
self.n_heads = n_heads
self.head_dim = d_model // n_heads
self.d_latent = d_latent # 圧縮先の次元(例: 512)
self.q_proj = nn.Linear(d_model, n_heads * self.head_dim, bias=False)
# KVを低次元に圧縮するダウンプロジェクション
self.kv_down = nn.Linear(d_model, d_latent, bias=False)
# 推論時に元の次元に復元するアッププロジェクション
self.k_up = nn.Linear(d_latent, n_heads * self.head_dim, bias=False)
self.v_up = nn.Linear(d_latent, n_heads * self.head_dim, bias=False)
self.o_proj = nn.Linear(n_heads * self.head_dim, d_model, bias=False)
def forward(self, x: torch.Tensor) -> torch.Tensor:
B, T, _ = x.shape
q = self.q_proj(x).view(B, T, self.n_heads, self.head_dim)
# KVを低次元潜在空間に圧縮 ← MLAの核心
kv_latent = self.kv_down(x) # (B, T, d_latent)
# KVキャッシュにはこのkv_latentのみを格納
# 推論時にアッププロジェクションで復元
k = self.k_up(kv_latent).view(B, T, self.n_heads, self.head_dim)
v = self.v_up(kv_latent).view(B, T, self.n_heads, self.head_dim)
q, k, v = [t.transpose(1, 2) for t in (q, k, v)]
attn = torch.nn.functional.scaled_dot_product_attention(q, k, v, is_causal=True)
attn = attn.transpose(1, 2).contiguous().view(B, T, -1)
return self.o_proj(attn)
DeepSeek V3の公式テクニカルレポートによると、MLAは128ヘッド・
さらに、DeepSeek-V2のアブレーション実験では、MLAはMHAよりも高いモデリング性能を示したとされています。ただし、MLAの性能優位はモデル規模が大きい場合(概ね100Bパラメータ以上)に顕著であり、小規模モデルではGQAのほうがチューニングが容易という報告もあります。
各アテンション方式のKVキャッシュ比較
以下の表は、1トークン・1レイヤーあたりのKVキャッシュサイズ(bf16)を
| 方式 | KVキャッシュ/トークン/レイヤー | MHA比削減率 | 採用モデル例 |
|---|---|---|---|
| MHA |
|
— | GPT-2 XL, OLMo 2 |
| GQA(8グループ) |
|
93.75% | Llama 3, Qwen3 |
| MLA( |
|
98.4% | DeepSeek V3, Kimi K2 |
| Linear Attention | 固定サイズ状態(コンテキスト長非依存) | — | Kimi Linear, Qwen3.5 |
トレードオフ: MLAは圧縮・復元のための追加計算が必要です。推論時にはアッププロジェクションの行列乗算が追加されるため、計算量とメモリのトレードオフが存在します。DeepSeekチームはこの追加計算を吸収(absorb)する最適化手法を提案しており、実際の推論遅延への影響は限定的と報告されています。
Linear Attention:固定メモリへの挑戦
Gated DeltaNetは、RNNに着想を得た線形注意機構です。通常のSelf-Attentionが
Gated DeltaNetの特徴は、KVキャッシュを蓄積する代わりに固定サイズの隠れ状態(行列メモリ)を逐次更新する点です。
ハイブリッド構成が実用の鍵です。 Qwen3.5やKimi Linearは、Gated DeltaNetレイヤーと通常のAttentionレイヤーを3:1の比率で交互に配置しています。線形注意のみでは長距離の精密な情報検索に弱点があるため、定期的にフルアテンションを挟むことで補完しています。
制約: 線形注意は固定サイズ状態に過去のコンテキストを圧縮するため、RNNと同様に長い依存関係の正確な保持には限界があります。Galleryの記述によると、この制約が3:1ハイブリッド構成の採用理由の一つとされています。
正規化と位置エンコーディングの設計を比較する
アテンション機構に次いで、正規化手法と位置エンコーディングもモデルの訓練安定性と長コンテキスト性能に大きく影響します。
QK-Norm:訓練安定性の標準技法
QK-Normは、アテンションのQuery・Key投射にRMSNormを適用する技法です。RoPE(回転位置エンコーディング)の適用前に正規化することで、注意ロジットの発散を防ぎます。
正規化なしの場合、訓練が進むにつれてQuery・Keyの
QK-Normを適用すると、すべてのドット積がコサイン類似度に制約されるため、この「勝者総取り」的な崩壊を防止できます。論文の報告によると、QK-Normの導入によりベースラインの1.5倍の学習率でも訓練が発散しないことが確認されています。
Galleryに収録されたモデルのうち、OLMo 2/3、Qwen3シリーズ、Gemma 3、GLM-4.5/4.7、MiniMax-M2などが QK-Normを採用しており、2026年時点では事実上の標準技法となっています。
位置エンコーディングの選択肢
位置エンコーディングは、トークンの順序情報をモデルに提供する仕組みです。
| 方式 | 特徴 | 長コンテキスト対応 | 採用モデル例 |
|---|---|---|---|
| 学習済み絶対位置 | 訓練時の最大長に制約 | 弱い | GPT-2 XL |
| RoPE | Query-Keyペアに回転行列を適用 | YaRN等で拡張可能 | Llama 3, Qwen3, DeepSeek V3 |
| NoPE | 位置エンコーディングなし(因果マスクのみ) | 理論上は無制限 | SmolLM3(周期的), Kimi Linear |
| 部分RoPE | 一部の次元のみにRoPE適用 | 長さ外挿に有利 | MiniMax-M2 |
RoPE(Rotary Position Embedding) が現在の主流です。Query・Keyベクトルに位置に応じた回転行列を適用することで、相対位置情報をドット積に反映させます。
興味深い設計として、NoPE(No Positional Encoding) があります。SmolLM3は一部のレイヤーでNoPEを周期的に使用し、Kimi LinearはMLAレイヤー内でNoPEを採用しています。因果マスク(下三角マスク)自体が順序情報を暗黙的に提供するため、明示的な位置エンコーディングなしでも学習が可能であるという知見に基づいています。
ハマりポイント: NoPEは長コンテキストでの位置認識が弱くなる可能性があります。そのため、実際のモデルではNoPEのみを使用するのではなく、RoPEレイヤーと交互に配置するハイブリッド構成が採用されています。
Pre-Norm vs Post-Norm
正規化の配置位置もモデルによって異なります。Pre-Norm(アテンション/FFN の前に正規化)が大多数ですが、OLMo 2/3はPost-Norm(残差接続の後に正規化)を採用しています。
OLMoチームの報告によると、Post-Normは訓練初期のロス低下が速く、安定性も高いとされています。ただし、Post-Normは勾配消失が起きやすいという従来の知見もあり、QK-Normとの併用が前提です。
Mixture-of-Experts設計を分類する
2026年のフロンティアモデルの大半はMoE(Mixture-of-Experts)を採用しています。MoEは複数のFFN(Expert)のうち少数のみを活性化することで、パラメータ数を大幅に増やしつつ推論コストを抑える設計です。
MoE設計の4分類
Galleryのモデルを分析すると、MoE設計は以下の4パターンに分類できます。
Fine-grained MoE: エキスパート数が多く(128〜512)、少数(8〜9)を活性化する方式です。DeepSeek V3(256エキスパート、9活性化)、Kimi K2(384エキスパート、8活性化)、Qwen3 235B-A22B(128エキスパート、8活性化)が代表例です。エキスパートの粒度が細かいほどルーティングの精度が高まりますが、ロードバランシングの難易度が上がります。
Coarse-grained MoE: エキスパート数が少なく(16〜128)、各エキスパートが大きい方式です。Llama 4 Maverick(128エキスパート、1活性化)は、エキスパートごとのパラメータ数を大きくして単一エキスパートの表現力を高めています。
活性化率の比較
活性化率(活性パラメータ数 / 総パラメータ数)は推論コストの直接的な指標です。
| モデル | 総パラメータ | 活性パラメータ | 活性化率 | エキスパート数 |
|---|---|---|---|---|
| DeepSeek V3 | 671B | 37B | 5.5% | 256 |
| Kimi K2 | 1T | 32B | 3.2% | 384 |
| Qwen3.5 | 397B | 17B | 4.3% | 512 |
| Llama 4 Maverick | 400B | 17B | 4.3% | 128 |
| GLM-5 | 744B | 40B | 5.4% | 256 |
| Ling 2.5 | 1T | 63B | 6.3% | — |
| Grok 2.5 | 270B | ~115B | ~42.6% | 8 |
Qwen3.5の活性化率4.3%(397B中17B活性化)は、エキスパート数512と多くの細粒度ルーティングを採用しつつ活性パラメータを抑える設計です。Gated DeltaNetとの組み合わせにより、線形注意の計算効率を活かしつつ高い性能を維持しています。
Shared Expert:冗長性削減の工夫
DeepSeek V3、GLM-4.5/4.7、Llama 4 MaverickはShared Expert(共有エキスパート)を採用しています。Shared Expertは全トークンで常に活性化されるFFNで、エキスパート間の知識の冗長性を削減する効果があります。
# Shared Expertを含むMoEの概念的な実装
# moe.py
import torch
import torch.nn as nn
class MoEWithSharedExpert(nn.Module):
"""Shared Expert付きMoE(DeepSeek V3方式)"""
def __init__(self, d_model: int, d_ffn: int, n_experts: int, n_active: int):
super().__init__()
self.n_active = n_active
self.shared_expert = nn.Sequential(
nn.Linear(d_model, d_ffn, bias=False),
nn.SiLU(),
nn.Linear(d_ffn, d_model, bias=False),
)
self.experts = nn.ModuleList([
nn.Sequential(
nn.Linear(d_model, d_ffn, bias=False),
nn.SiLU(),
nn.Linear(d_ffn, d_model, bias=False),
)
for _ in range(n_experts)
])
self.gate = nn.Linear(d_model, n_experts, bias=False)
def forward(self, x: torch.Tensor) -> torch.Tensor:
# Shared Expertは常に活性化
shared_out = self.shared_expert(x)
# ルーターでトップKエキスパートを選択
gate_logits = self.gate(x)
topk_vals, topk_ids = torch.topk(gate_logits, self.n_active, dim=-1)
topk_weights = torch.softmax(topk_vals, dim=-1)
# 選択されたエキスパートの出力を加重合算
expert_out = torch.zeros_like(x)
for i in range(self.n_active):
expert_idx = topk_ids[..., i]
weight = topk_weights[..., i].unsqueeze(-1)
for j in range(len(self.experts)):
mask = (expert_idx == j)
if mask.any():
expert_out[mask] += weight[mask] * self.experts[j](x[mask])
return shared_out + expert_out # 共有 + ルーティング
一方、Qwen3 235B-A22BはShared Expertを採用していません。Galleryの情報によると、Shared Expertの有無は性能に大きな差を生まないケースもあり、設計上の選択として両方のアプローチが共存しています。
よくある間違い: MoEモデルの「パラメータ数」をそのまま計算量の指標と捉えてしまうことがあります。たとえばDeepSeek V3の671Bという数字は総パラメータ数であり、推論時に活性化されるのは37B(約5.5%)です。モデル選定時は活性パラメータ数で比較することが重要です。
2026年フロンティアモデルのアーキテクチャ動向を分析する
Sliding Window Attentionの普及
Sliding Window Attention(SWA)は、各トークンが近傍のウィンドウ内のトークンのみに注意を払うローカルアテンション機構です。長いコンテキストでもKVキャッシュが一定量に収まるため、メモリ効率が高いのが特徴です。
Galleryのモデルでは、SWAをグローバルアテンションと交互に配置するパターンが一般的です。
| モデル | SWA:Global比率 | ウィンドウサイズ | 最大コンテキスト |
|---|---|---|---|
| Gemma 3 (27B) | 5:1 | 1,024トークン | 128K |
| OLMo 3 (7B/32B) | 3:1 | — | 32K+ |
| GPT-OSS (20B/120B) | 交互配置 | — | 128K |
| Xiaomi MiMo-V2-Flash (309B) | 5:1 | 128トークン | — |
| Step 3.5 Flash (196B) | 3:1 | — | — |
| Arcee Trinity Large (400B) | 3:1 | — | 512K |
Gemma 3は5:1という比率で、6レイヤーのうち5レイヤーがSWA(ローカル)、1レイヤーがグローバルアテンションです。Google DeepMindの報告によると、この比率でもモデリング性能への影響は限定的とされています。
密モデル vs MoEモデルの判断基準
2026年3月時点で、500Bパラメータ以上のモデルはすべてMoEです。一方、32B以下の中小規模モデルでは密モデルが依然として有力な選択肢です。
実務でモデルを選定する際の判断基準をまとめます。
| 判断軸 | 密モデルが適する場合 | MoEモデルが適する場合 |
|---|---|---|
| 規模 | 32B以下 | 100B以上 |
| 推論インフラ | 単一GPU | マルチGPU/分散推論 |
| レイテンシ要件 | 厳しい(ルーティングオーバーヘッド回避) | 許容範囲が広い |
| タスク多様性 | 単一ドメイン特化 | 多様なタスクに対応 |
| ファインチューニング | 全パラメータ更新が容易 | エキスパート選択的更新が可能 |
制約条件: MoEモデルはエキスパートのロードバランシングが不均等になると、一部のエキスパートに負荷が集中する問題があります。DeepSeek V3ではAuxiliary Loss-Free Load Balancingという手法でこの問題に対処していますが、すべてのMoEモデルがこの課題を完全に解決しているわけではありません。
Multi-Token Prediction(MTP)
Galleryの新しいモデルの一部は、1ステップで複数トークンを予測するMulti-Token Predictionを採用しています。
- Xiaomi MiMo-V2-Flash: MTPを採用(推論スループット向上目的)
- Step 3.5 Flash: MTP-3(3トークン同時予測)
MTPは推論スループットの向上に寄与しますが、訓練時の実装複雑度が増す点と、予測精度は第1トークン以降で低下する傾向がある点がトレードオフです。
Galleryから読み取れる2026年のトレンドまとめ
Galleryのモデル群を俯瞰すると、以下のトレンドが浮かび上がります。
- MoEの標準化: 100B以上のモデルではMoEが事実上の標準。活性化率は3〜6%が主流
- MLAの台頭: DeepSeek V3以降、Kimi K2、Mistral Large 3、GLM-5がMLA採用。GQAからの移行が進行中
- ハイブリッドアテンション: Gated DeltaNet + フルアテンションの3:1構成が新たなパターンとして確立
- QK-Normの標準化: 大半の新規モデルがQK-Normを採用。訓練安定性の事実上の標準
- SWAの普及: ローカル+グローバルの交互配置が長コンテキスト対応の主要戦略に
Galleryを実務で活用する
モデル選定のチェックリスト
Galleryをモデル選定に活用する際の手順を提案します。
- 要件の整理: 推論レイテンシ・メモリ予算・コンテキスト長・タスク種別を明確化
- アテンション方式の選択: メモリ制約が厳しければMLA/Linear Attention搭載モデルを候補に
- 活性化率の確認: ファクトシートの活性パラメータ数で推論コストを概算
- config.jsonの確認: Galleryのリンクからconfig.jsonを直接参照し、ヘッド数・レイヤー数・語彙サイズを確認
- スクラッチ実装の参照: LLMs-from-scratchリポジトリのGated DeltaNet・MLA実装で内部動作を理解
スクラッチ実装で理解を深める
RaschkaのGitHubリポジトリ rasbt/LLMs-from-scratch には、GQA・MLA・Gated DeltaNetなどの主要コンポーネントのPyTorchスクラッチ実装が公開されています。Galleryのアーキテクチャ図と対応する実装コードを照合することで、各設計選択の意味をより深く理解できます。
# LLMs-from-scratch リポジトリの主要実装
git clone https://github.com/rasbt/LLMs-from-scratch.git
ls LLMs-from-scratch/ch04/
# 05_mla/ -> Multi-Head Latent Attention
# 08_deltanet/ -> Gated DeltaNet
# 01_main-chapter-code/ -> 基本的なTransformerブロック
よくある問題と解決方法
| 問題 | 原因 | 解決方法 |
|---|---|---|
| MoEモデルが単一GPUに載らない | 総パラメータ数がVRAMを超過 | 活性パラメータ数を確認し、テンソル並列やエキスパート並列で分散推論を検討 |
| MLAモデルの推論が遅い | アッププロジェクションの計算オーバーヘッド | absorb最適化の適用を確認(vLLM/SGLangの最新版で対応) |
| SWAモデルで長距離依存が失われる | ローカルウィンドウ外の情報にアクセスできない | SWA:Global比率を確認し、グローバルレイヤーで補完されていることを検証 |
| GQAモデルのKVキャッシュが予想より大きい | KVグループ数の設定確認漏れ | config.jsonのnum_key_value_headsフィールドを直接確認 |
まとめと次のステップ
まとめ:
- Sebastian RaschkaのLLM Architecture Galleryは、30以上のオープンウェイトモデルのアーキテクチャを統一フォーマットで比較できるリファレンス
- アテンション機構はMHA→GQA→MLA→Linear Attention(Gated DeltaNet)へ進化しており、MLAはKVキャッシュを28倍圧縮可能
- QK-Normは訓練安定性の事実上の標準。SWAとグローバルアテンションの交互配置が長コンテキスト対応の主流
- 2026年のフロンティアモデルはMoE+MLA/Linear Attentionのハイブリッドが主流で、活性化率3〜6%が一般的
- Galleryの各モデルにリンクされたconfig.json・tech report・スクラッチ実装を活用することで、設計選択の根拠を検証可能
次にやるべきこと:
- LLM Architecture Gallery公式ページをブックマークし、モデル選定時のリファレンスとして活用する
-
rasbt/LLMs-from-scratchリポジトリのMLA・Gated DeltaNet実装を手元で動かし、各機構の動作を体験する - 自社の推論要件(メモリ予算・レイテンシ・コンテキスト長)を整理し、本記事の比較表をもとに候補モデルを絞り込む
関連記事:
- LLM MoEアーキテクチャの発展とスケーリング戦略を体系的に理解する
- Qwen3.5-397Bのハイブリッドアーキテクチャ徹底解説 Gated DeltaNet×Fine-grained MoEの技術詳細
参考
- LLM Architecture Gallery | Sebastian Raschka, PhD
- The Big LLM Architecture Comparison | Sebastian Raschka
- A Dream of Spring for Open-Weight LLMs | Sebastian Raschka
- A Visual Guide to Attention Variants in Modern LLMs | Sebastian Raschka
- GitHub: rasbt/LLMs-from-scratch
- DeepSeek-V3 Technical Report (arXiv:2412.19437)
- A Technical Tour of the DeepSeek Models from V3 to V3.2 | Sebastian Raschka
- Methods of improving LLM training stability (arXiv:2410.16682)
- Gated DeltaNet for Linear Attention | rasbt/LLMs-from-scratch
関連する深掘り記事
この記事で紹介した技術について、さらに深掘りした記事を書きました:
- 論文解説: DeepSeek-V2 — Multi-Head Latent AttentionによるKVキャッシュ93%削減の設計と実装 - arxiv解説
- 論文解説: Gated Delta Networks — Delta Ruleとゲーティングで線形注意の連想記憶能力を改善する - arxiv解説
- 論文解説: GQA — Grouped-Query AttentionによるKVキャッシュ効率化とMHAからの変換手法 - arxiv解説
- 論文解説: Methods of Improving LLM Training Stability — QK-NormからRMSNormまでの学習安定化技法 - arxiv解説
- 論文解説: DeepSeek-V3 — MLA+MoE+FP8混合精度で671Bモデルを低コスト学習する技術詳細 - arxiv解説
Discussion