ArenaAI分析第3回: モデルファミリーの生き残りをかけた戦い
はじめに
本記事は、2026年4月時点の Arena データを使った分析ブログ3回連載の第3回です。
Arena AI(旧Chatbot Arena)という投票型のLLM評価システムがあるので、そこで公開されているデータを利用してLLMの比較・分析をしていこうというものです。
第1回では「性能とサイズのトレードオフ」を見ました。
第2回では「指標同士はかなり似た方向を向く」ことを確認しました。
第3回の今回は、次の問いを扱います。
RQ3: Arenaのスコア差は、モデルファミリー差なのか、単純なパラメータ規模差なのか?ファミリーの住み分けは?
ここでいう「ファミリー」とは、Claude や Llama、Mistral といった系統のことです。
実質トップのモデルは、例外はありますがほぼ大手企業で開発されたモデルです。
企業ごとに戦略は違うはずで、住み分けのようなものがあるように見えます。
ここでは、同じくらいのサイズでもファミリー差があるのか、逆にファミリーをまたいでもサイズが効くのかを、
Arena のデータから多要因分散分析(ANOVA)と回帰モデルで分解して見ていきます。
先に結論
今回の結果は、次の4点に要約できます。
- 全データセットでモデルファミリー効果は有意だった(text/text_style/vision/vision_style のすべて)。
- パラメータカテゴリ効果は text 系では有意、vision 系では有意でなかった。
- 回帰でも同様で、
log10(parameters_B)は text 系では有意な正効果、vision 系では非有意だった。 - 一方で
has_moeダミーは4データセットすべてで正かつ有意で、特に vision 系で係数が大きかった。
つまり、
- text 系: 「サイズも効くし、ファミリー差も効く」
- vision 系: 「サイズ単体より、ファミリー差・アーキテクチャ特徴(MoEなど)が効く」
という構図です。
データと分析条件
対象は、第1回で扱った full データの overall 行をモデル単位(平均rating)に集約したものです。
- dataset:
text,text_style,vision,vision_style - 目的変数:
rating_mean - 要因(ANOVA):
model_family,parameter_category - 補足: full factorial が満たせないため、interaction(family × parameter)は今回推定不可
ANOVAのモデル式は次の通りです。
回帰では連続量として log10(parameters_B) を用い、ファミリーダミーと名前由来の補助ダミーを入れています。
多要因ANOVAの結果
全体比較(有意性と効果量)
text
| factor | F | p | eta_sq | 解釈 |
|---|---|---|---|---|
| model_family | 4.2915 | 1.83464e-05 | 0.1264 | 有意 |
| parameter_category | 42.3067 | 3.46233e-16 | 0.2492 | 有意。特にサイズカテゴリ効果が大きい |
text_style
| factor | F | p | eta_sq | 解釈 |
|---|---|---|---|---|
| model_family | 4.9376 | 1.99603e-06 | 0.1418 | 有意 |
| parameter_category | 43.3977 | 1.5921e-16 | 0.2493 | 有意。text と同じ傾向 |
vision
| factor | F | p | eta_sq | 解釈 |
|---|---|---|---|---|
| model_family | 2.5448 | 0.0239319 | 0.2343 | 有意 |
| parameter_category | 1.1084 | 0.337219 | 0.0292 | 非有意 |
vision_style
| factor | F | p | eta_sq | 解釈 |
|---|---|---|---|---|
| model_family | 2.6187 | 0.0206145 | 0.2386 | 有意 |
| parameter_category | 1.2468 | 0.295278 | 0.0325 | 非有意 |
この表が、今回の核心です。
text 系ではパラメータカテゴリ(小/中/大)がしっかり効いています。
一方で vision 系は、カテゴリ化したサイズ差だけでは説明しきれず、主にファミリー差が効いています。つまり パラメータを増やしただけでは十分ではない ということです。データの質やモデル構造、学習方法など、別の要因が効いている可能性が高いと考えられます。
連続パラメータの記述的傾向
| dataset | pearson_r | spearman_r | slope | slope p |
|---|---|---|---|---|
| text | 0.6617 | 0.6500 | 141.6950 | 1.03949e-29 |
| text_style | 0.6623 | 0.6521 | 124.1673 | 8.86797e-30 |
| vision | 0.5930 | 0.5882 | 77.9871 | 1.54937e-07 |
| vision_style | 0.6072 | 0.5941 | 76.7101 | 6.48143e-08 |
すべて正の傾向自体はあります。
ただし「他要因を同時に入れたときに有意に残るか」は別問題なので、次に回帰で確認します。
可視化(ANOVA)
値は性能を表すEloレーティング値です。大きい値ほど良い評価です。
text はサイズカテゴリ差が濃く出る例、vision はファミリー差中心で読む例として並べます。

text: family × parameter_category のセル平均ヒートマップ

text-style: family × parameter_category のセル平均ヒートマップ

vision: family × parameter_category のセル平均ヒートマップ

vision-style: family × parameter_category のセル平均ヒートマップ
回帰で見る「独立効果」
ANOVAだけだとカテゴリ化されたサイズ効果の見え方に依存するため、
連続量 log10(parameters_B) を含む回帰で再確認します。
主要結果の比較
| dataset | adj_R^2 | log10(parameters_B) coef (p) | has_moe coef (p) |
|---|---|---|---|
| text | 0.5888 | 127.1512 (9.31883e-15) | 71.3038 (0.0179777) |
| text_style | 0.6069 | 110.6655 (3.82072e-15) | 57.5907 (0.0254699) |
| vision | 0.4710 | 27.8728 (0.271806) | 104.7303 (0.0406069) |
| vision_style | 0.5116 | 24.9873 (0.285712) | 93.7358 (0.0468516) |
読み方はシンプルです。
- text 系は、familyやダミーを入れてもサイズ効果が有意に残る。
- vision 系は、サイズ係数は正でも有意に残らない。
- 4データセット共通で
has_moeは正で有意。特に vision 系で係数が大きい。
stepwise で残った特徴量の違い
- text/text_style では
log10_parameters_b、複数の family 差分、has_moe、has_instruct_chatが残りました。 - vision/vision_style では
fam_Llama、fam_Other、fam_Qwen、has_moeが残りました。 - 使ったダミー変数の定義と、各 dataset の最終係数は Appendix にまとめています。
vision 側では、サイズより「どのファミリーか」「MoE 構造があるか」が残りやすい構造でした。
text 側ではサイズ係数が大きく残る一方、vision 側ではサイズ項そのものが落ち、Claude 基準のファミリー差と has_moe だけが残りました。
可視化(連続効果の対比)
図が多いと見通しが悪くなるので、ここでは text と vision の結果のみ示します。

text: 連続パラメータ効果は強く、傾きも大きい

vision: 正の傾向はあるが、制御後の有意性は弱い
分散分析の結果と一致します。
本記事の結論
- 全データセットでモデルファミリー差は有意だった。
- パラメータカテゴリ差は text 系で有意、vision 系では有意でなかった。
- 回帰でも同じ傾向で、サイズ効果は text 系で強く、vision 系で弱い。
-
has_moeは4データセットで一貫して正の有意効果を示した。
3回の連載をまとめると、
- 第1回: 「性能と効率のフロント」を見つける
- 第2回: 「指標の共通軸と差分軸」を分解する
- 第3回: 「差の源泉(サイズかfamilyか)」を統計的に切り分ける
という流れで、モデル選定の判断を段階的に具体化できました。
制約と注意点
- パラメータ数はモデル名由来の推定値を含む(厳密な公開値と一致しない可能性)。
- interaction(family × parameter)はセル不足で未推定。交互作用を強く主張しない。
- 観測データ分析なので、因果効果を直接主張するものではない。
- Arena の評価設計・投票分布に依存するため、外部ベンチ併用が望ましい。
Appendix: stepwise
回帰では model_family を C(model_family) として投入し、実装上は Claude を基準カテゴリとして各 family のダミー差分で扱っています。
モデル名由来の補助ダミーとして、次の 6 変数を用意しました。
-
has_moe: モデル名にmoe、AxxB形式、mixtralを含む -
has_thinking:thinking/reasoning/reasonerを含む -
has_mini_nano:mini/nanoを含む -
has_flash_lite:flash/liteを含む -
has_preview_beta_exp:preview/beta/expを含む -
has_instruct_chat:instruct/chatを含む
stepwise の最終モデルで残った変数と係数を、まず横棒グラフで示します。fam_* の係数は、Claude 基準で見たときの差分です。緑が正、赤が負の係数です。

こうしてみると多くのFamilyがマイナスに出ているので基準になっているClaudeが強いのだなとわかります。
MoE(Mixture of Experts)の効果が正方向に出ているのが意外でした。総パラメータ数の効果が別にあるので、それ以上の性能への効果があるのだということです。MoEの場合はexpertではなく全体のパラメータ数が総パラメータ数として計算されています。なので、同じパラメータを使って一つのモデルを作るより、複数に分割してMixture of Experts方式にした方が性能が良くなるということです。
数値を確認したい場合は、以下の一覧を参照してください。
text
| 変数 | 係数 |
|---|---|
log10_parameters_b |
+128.82 |
fam_DeepSeek |
-93.48 |
fam_GLM |
-67.99 |
fam_GPT |
-109.90 |
fam_Gemini |
-152.71 |
fam_Llama |
-96.12 |
fam_Mistral |
-73.56 |
fam_Other |
-159.99 |
fam_Qwen |
-64.82 |
has_moe |
+70.85 |
has_instruct_chat |
-44.73 |
text_style
| 変数 | 係数 |
|---|---|
log10_parameters_b |
+114.59 |
fam_DeepSeek |
-94.14 |
fam_GLM |
-73.94 |
fam_GPT |
-95.43 |
fam_Gemini |
-148.93 |
fam_Llama |
-98.04 |
fam_Mistral |
-72.56 |
fam_Other |
-148.29 |
fam_Qwen |
-65.09 |
has_moe |
+55.53 |
has_instruct_chat |
-37.86 |
vision
| 変数 | 係数 |
|---|---|
fam_Llama |
-127.29 |
fam_Other |
-165.24 |
fam_Qwen |
-83.80 |
has_moe |
+125.05 |
vision_style
| 変数 | 係数 |
|---|---|
fam_Llama |
-125.98 |
fam_Other |
-163.55 |
fam_Qwen |
-81.91 |
has_moe |
+117.93 |
用語一覧
| 用語 | 説明 |
|---|---|
| ANOVA(分散分析) | 複数グループの平均差が偶然かどうかを検定する方法。詳しくは Wikipedia や各種の解説ページを参照してください。 |
| Type-II ANOVA | 他の主効果を調整しつつ、各主効果の寄与を評価する分散分析。 |
| 効果量(eta_sq) | 有意かどうかだけでなく、どれだけ差を説明したかを示す指標。 |
| 回帰係数 | 説明変数が1単位増えたとき、目的変数がどれだけ変化するかを表す値。 |
| adj_R^2 | 説明変数の数を考慮した当てはまり指標。モデル比較に使いやすい。 |
| stepwise法 | 有意性の低い説明変数を逐次除外して簡潔なモデルを作る手法。 |
| LASSO-CV | 正則化で不要な係数を0に近づける方法。CVで正則化強度を選ぶ。 |
| MoE | Mixture of Experts。入力ごとに一部の専門家ネットワークを使う構造。 |
Discussion