🐫

ArenaAI分析第3回: モデルファミリーの生き残りをかけた戦い

に公開

はじめに

本記事は、2026年4月時点の Arena データを使った分析ブログ3回連載の第3回です。
Arena AI(旧Chatbot Arena)という投票型のLLM評価システムがあるので、そこで公開されているデータを利用してLLMの比較・分析をしていこうというものです。

第1回では「性能とサイズのトレードオフ」を見ました。
第2回では「指標同士はかなり似た方向を向く」ことを確認しました。

https://zenn.dev/headwaters/articles/025705d64b2e6f
https://zenn.dev/headwaters/articles/74233d7267387f

第3回の今回は、次の問いを扱います。

RQ3: Arenaのスコア差は、モデルファミリー差なのか、単純なパラメータ規模差なのか?ファミリーの住み分けは?

ここでいう「ファミリー」とは、Claude や Llama、Mistral といった系統のことです。
実質トップのモデルは、例外はありますがほぼ大手企業で開発されたモデルです。
企業ごとに戦略は違うはずで、住み分けのようなものがあるように見えます。

ここでは、同じくらいのサイズでもファミリー差があるのか、逆にファミリーをまたいでもサイズが効くのかを、
Arena のデータから多要因分散分析(ANOVA)と回帰モデルで分解して見ていきます。


先に結論

今回の結果は、次の4点に要約できます。

  1. 全データセットでモデルファミリー効果は有意だった(text/text_style/vision/vision_style のすべて)。
  2. パラメータカテゴリ効果は text 系では有意、vision 系では有意でなかった。
  3. 回帰でも同様で、log10(parameters_B) は text 系では有意な正効果、vision 系では非有意だった。
  4. 一方で has_moe ダミーは4データセットすべてで正かつ有意で、特に vision 系で係数が大きかった。

つまり、

  • text 系: 「サイズも効くし、ファミリー差も効く」
  • vision 系: 「サイズ単体より、ファミリー差・アーキテクチャ特徴(MoEなど)が効く」

という構図です。


データと分析条件

対象は、第1回で扱った full データの overall 行をモデル単位(平均rating)に集約したものです。

  • dataset: text, text_style, vision, vision_style
  • 目的変数: rating_mean
  • 要因(ANOVA): model_family, parameter_category
  • 補足: full factorial が満たせないため、interaction(family × parameter)は今回推定不可

ANOVAのモデル式は次の通りです。

\text{rating\_mean} \sim C(\text{model\_family}) + C(\text{parameter\_category})

回帰では連続量として log10(parameters_B) を用い、ファミリーダミーと名前由来の補助ダミーを入れています。

\text{rating\_mean} \sim \log_{10}(\text{parameters\_B}) + C(\text{model\_family}) + \text{name dummies}

多要因ANOVAの結果

全体比較(有意性と効果量)

text

factor F p eta_sq 解釈
model_family 4.2915 1.83464e-05 0.1264 有意
parameter_category 42.3067 3.46233e-16 0.2492 有意。特にサイズカテゴリ効果が大きい

text_style

factor F p eta_sq 解釈
model_family 4.9376 1.99603e-06 0.1418 有意
parameter_category 43.3977 1.5921e-16 0.2493 有意。text と同じ傾向

vision

factor F p eta_sq 解釈
model_family 2.5448 0.0239319 0.2343 有意
parameter_category 1.1084 0.337219 0.0292 非有意

vision_style

factor F p eta_sq 解釈
model_family 2.6187 0.0206145 0.2386 有意
parameter_category 1.2468 0.295278 0.0325 非有意

この表が、今回の核心です。
text 系ではパラメータカテゴリ(小/中/大)がしっかり効いています。
一方で vision 系は、カテゴリ化したサイズ差だけでは説明しきれず、主にファミリー差が効いています。つまり パラメータを増やしただけでは十分ではない ということです。データの質やモデル構造、学習方法など、別の要因が効いている可能性が高いと考えられます。

連続パラメータの記述的傾向

dataset pearson_r spearman_r slope slope p
text 0.6617 0.6500 141.6950 1.03949e-29
text_style 0.6623 0.6521 124.1673 8.86797e-30
vision 0.5930 0.5882 77.9871 1.54937e-07
vision_style 0.6072 0.5941 76.7101 6.48143e-08

すべて正の傾向自体はあります。
ただし「他要因を同時に入れたときに有意に残るか」は別問題なので、次に回帰で確認します。

可視化(ANOVA)

値は性能を表すEloレーティング値です。大きい値ほど良い評価です。

text はサイズカテゴリ差が濃く出る例、vision はファミリー差中心で読む例として並べます。


text: family × parameter_category のセル平均ヒートマップ


text-style: family × parameter_category のセル平均ヒートマップ


vision: family × parameter_category のセル平均ヒートマップ


vision-style: family × parameter_category のセル平均ヒートマップ


回帰で見る「独立効果」

ANOVAだけだとカテゴリ化されたサイズ効果の見え方に依存するため、
連続量 log10(parameters_B) を含む回帰で再確認します。

主要結果の比較

dataset adj_R^2 log10(parameters_B) coef (p) has_moe coef (p)
text 0.5888 127.1512 (9.31883e-15) 71.3038 (0.0179777)
text_style 0.6069 110.6655 (3.82072e-15) 57.5907 (0.0254699)
vision 0.4710 27.8728 (0.271806) 104.7303 (0.0406069)
vision_style 0.5116 24.9873 (0.285712) 93.7358 (0.0468516)

読み方はシンプルです。

  • text 系は、familyやダミーを入れてもサイズ効果が有意に残る。
  • vision 系は、サイズ係数は正でも有意に残らない。
  • 4データセット共通で has_moe は正で有意。特に vision 系で係数が大きい。

stepwise で残った特徴量の違い

  • text/text_style では log10_parameters_b、複数の family 差分、has_moehas_instruct_chat が残りました。
  • vision/vision_style では fam_Llamafam_Otherfam_Qwenhas_moe が残りました。
  • 使ったダミー変数の定義と、各 dataset の最終係数は Appendix にまとめています。

vision 側では、サイズより「どのファミリーか」「MoE 構造があるか」が残りやすい構造でした。
text 側ではサイズ係数が大きく残る一方、vision 側ではサイズ項そのものが落ち、Claude 基準のファミリー差と has_moe だけが残りました。

可視化(連続効果の対比)

図が多いと見通しが悪くなるので、ここでは text と vision の結果のみ示します。

text: 連続パラメータ効果は強く、傾きも大きい

vision: 正の傾向はあるが、制御後の有意性は弱い
分散分析の結果と一致します。


本記事の結論

  • 全データセットでモデルファミリー差は有意だった。
  • パラメータカテゴリ差は text 系で有意、vision 系では有意でなかった。
  • 回帰でも同じ傾向で、サイズ効果は text 系で強く、vision 系で弱い。
  • has_moe は4データセットで一貫して正の有意効果を示した。

3回の連載をまとめると、

  1. 第1回: 「性能と効率のフロント」を見つける
  2. 第2回: 「指標の共通軸と差分軸」を分解する
  3. 第3回: 「差の源泉(サイズかfamilyか)」を統計的に切り分ける

という流れで、モデル選定の判断を段階的に具体化できました。


制約と注意点

  • パラメータ数はモデル名由来の推定値を含む(厳密な公開値と一致しない可能性)。
  • interaction(family × parameter)はセル不足で未推定。交互作用を強く主張しない。
  • 観測データ分析なので、因果効果を直接主張するものではない。
  • Arena の評価設計・投票分布に依存するため、外部ベンチ併用が望ましい。

Appendix: stepwise

回帰では model_familyC(model_family) として投入し、実装上は Claude を基準カテゴリとして各 family のダミー差分で扱っています。

モデル名由来の補助ダミーとして、次の 6 変数を用意しました。

  • has_moe: モデル名に moeAxxB 形式、mixtral を含む
  • has_thinking: thinking / reasoning / reasoner を含む
  • has_mini_nano: mini / nano を含む
  • has_flash_lite: flash / lite を含む
  • has_preview_beta_exp: preview / beta / exp を含む
  • has_instruct_chat: instruct / chat を含む

stepwise の最終モデルで残った変数と係数を、まず横棒グラフで示します。fam_* の係数は、Claude 基準で見たときの差分です。緑が正、赤が負の係数です。

こうしてみると多くのFamilyがマイナスに出ているので基準になっているClaudeが強いのだなとわかります。
MoE(Mixture of Experts)の効果が正方向に出ているのが意外でした。総パラメータ数の効果が別にあるので、それ以上の性能への効果があるのだということです。MoEの場合はexpertではなく全体のパラメータ数が総パラメータ数として計算されています。なので、同じパラメータを使って一つのモデルを作るより、複数に分割してMixture of Experts方式にした方が性能が良くなるということです。

数値を確認したい場合は、以下の一覧を参照してください。

text

変数 係数
log10_parameters_b +128.82
fam_DeepSeek -93.48
fam_GLM -67.99
fam_GPT -109.90
fam_Gemini -152.71
fam_Llama -96.12
fam_Mistral -73.56
fam_Other -159.99
fam_Qwen -64.82
has_moe +70.85
has_instruct_chat -44.73

text_style

変数 係数
log10_parameters_b +114.59
fam_DeepSeek -94.14
fam_GLM -73.94
fam_GPT -95.43
fam_Gemini -148.93
fam_Llama -98.04
fam_Mistral -72.56
fam_Other -148.29
fam_Qwen -65.09
has_moe +55.53
has_instruct_chat -37.86

vision

変数 係数
fam_Llama -127.29
fam_Other -165.24
fam_Qwen -83.80
has_moe +125.05

vision_style

変数 係数
fam_Llama -125.98
fam_Other -163.55
fam_Qwen -81.91
has_moe +117.93

用語一覧

用語 説明
ANOVA(分散分析) 複数グループの平均差が偶然かどうかを検定する方法。詳しくは Wikipedia や各種の解説ページを参照してください。
Type-II ANOVA 他の主効果を調整しつつ、各主効果の寄与を評価する分散分析。
効果量(eta_sq) 有意かどうかだけでなく、どれだけ差を説明したかを示す指標。
回帰係数 説明変数が1単位増えたとき、目的変数がどれだけ変化するかを表す値。
adj_R^2 説明変数の数を考慮した当てはまり指標。モデル比較に使いやすい。
stepwise法 有意性の低い説明変数を逐次除外して簡潔なモデルを作る手法。
LASSO-CV 正則化で不要な係数を0に近づける方法。CVで正則化強度を選ぶ。
MoE Mixture of Experts。入力ごとに一部の専門家ネットワークを使う構造。
ヘッドウォータース

Discussion