🦖

ArenaAI分析第1回: 「バランスの取れた良いモデル」を探せ!

に公開

はじめに

Arena AIを知っていますか?簡単に言うと投票型のLLMリーダーボードです。
リーダーボードが何かというと、成績やスコアをランキング形式で表示するシステムです。
つまり、リアルタイムにLLMのランキングを確かめられるものです。

今回のブログではArena AIのデータをtextとvisionについて独自分析してみます。
2026年4月時点の Arena データを使った分析ブログ3回連載の第1回目です。

  • 第1回(本記事): RQ1 パラメータ数と性能の関係をパレート解析で読む
  • 第2回: RQ2 text/vision 指標の相関と PCA[1]
  • 第3回: RQ3 モデルファミリー差の分散分析[2]

今回のリサーチクエスチョンは次のとおりです。

RQ1: 性能とサイズのバランスが優れたLLMモデルはどれか?

この問いに対し、本記事では「性能だけ」でなく「モデルサイズとのバランス」を同時に評価します。

想定読者は、検証・実装を担当するエンジニアと、投資配分や採用方針を決める意思決定者です。


Arena(旧Chatbot Arena)とは

Arena は、複数モデルの応答を人間が比較し、勝敗データからランキングとレーティングスコアを構築する仕組みです。
旧称は Chatbot Arena で、現在はモダリティ別の評価軸も含む形で拡張されています。

https://arena.ai/leaderboard

Arenaの評価フロー(概念図)

本分析では、リーダーボードの overall rating(Elo系スコア[3])を中心に、パラメータ数とのトレードオフを見ます。
つまり、二つの指標があるということです。今回の分析では多目的最適化[4]のパレート解析という考えを使って分析していきます。


なぜパレート解析を使うのか

「強いモデル」を rating のみで並べると、大規模モデルが有利になります。
一方、実運用ではコストや遅延を考え、同等性能なら小さいモデルが望ましい場面も多いです。パラメータ数が多いとより多くのメモリが必要になり、読み込み時間もパラメータ数に応じて延びます。なので実用上は非常に重要な要素と言えます。

そこで2目的最適化[4:1]として、

  • 目的1: rating を最大化
  • 目的2: parameters_B を最小化

を同時に評価します。

支配関係とパレート最適

モデル A が B を支配する条件:

  • rating_A \ge rating_B
  • params_A \le params_B
  • 少なくとも一方は厳密不等号

支配されないモデル集合がパレートフロント[5]です。
片方の指標をより良いものを選ぼうとすると必ず他の指標を悪化させたものを選ばなければならない状況です。

つまり、こういう状態です。↓

3匹のpareto gorillaはそれぞれの視野で自分が最強と思っています。


データと前提

  • 対象データ: text / text_style / vision / vision_style
  • 4データセットすべて full スコープを使用
  • パラメータ数はモデル名から推定可能なものを使用
  • MoE[6] は有効パラメータではなく総パラメータ(容量)で扱う
  • 例: Gemma 4 26B A4B は 26B として計算

補足:
パラメータ未推定モデルは、パレート解析の母集団からは除外されます。
本記事の図表は、すべて full データを用いた結果です。


結果サマリ

全体集計

dataset models_used_in_pareto pareto_models parameter_range_B rating_range
text (full) 25796 7 1 .. 1e+03 789.00 .. 1504.19
text_style (full) 22023 8 1 .. 1e+03 858.20 .. 1506.96
vision (full) 4068 6 4 .. 1e+03 917.63 .. 1355.19
vision_style (full) 3906 6 4 .. 1e+03 948.76 .. 1331.94

補足(散布図の点数について):

  • 上表の models_used_in_pareto が、散布図に実際に描画される点数です。
  • text は 25,796 点、vision は 4,068 点で、点数ベースでは text の方が約 6.3 倍多いです。
  • それでも vision が濃く見える場合は、値域内で点が重なりやすいこと(オーバープロット[7])が主因です。
dataset overall総数(フィルタ前) 散布図点数(描画)
text (full) 34853 25796
text_style (full) 30541 22023
vision (full) 6273 4068
vision_style (full) 6080 3906

可視化

以下の散布図の見方を確認します。

  • 横軸: parameters_B(推定パラメータ数、対数スケール)
  • 縦軸: overall rating
  • 青い点: 比較対象となる全モデル
  • 赤い点と赤線: パレート解(非支配解[8]

左上方向ほど「小さいのに強い」モデル、右上方向ほど「大きくて非常に強い」モデルを意味します。
レーティングは高いほど良いとみなされているものです。パラメータ数は文字列から読み取ったり、WEBの情報を参考にしています。MoEはトータルのパラメータ数にしています。パラメータ数が多いほど性能が良くなる傾向にありますが、パラメータ数が少ない方がメモリや処理速度が速いので、ここではパラメータ数が少ないほど良いとみなしてパレート解を調べていきます。

text (full)

text の散布図では、1B → 2B → 4B → 7B → 26B → 31B → 100B と、サイズ帯をまたいでフロントが階段状に上がる様子が確認できます。
興味深いのは1000Bのトップはパレート解に入っていないということです。100Bのモデルを上回っているかどうかはレーティングの誤差みたいなものなので、ちょっと上回ればパレート解に入ると思いますが、いずれにせよtext課題については100Bと大きな差は出ていないということです。
特に 4B〜31B 帯にも非支配解が残っており、性能と効率の両立候補が複数あることが読み取れます。

text のパレート解(7モデル):

model_name parameters_B rating
llama-3.2-1b-instruct 1.0 1071.15
gemma-2-2b-it 2.0 1164.60
gemma-3n-e4b-it 4.0 1309.21
mistral-small-2506 7.0 1341.69
gemma-4-26b-a4b 26.0 1435.41
gemma-4-31b 31.0 1444.04
claude-opus-4-6-thinking 100.0 1504.19

text_style (full)

text_style でも同様に、低パラメータ側から高パラメータ側まで連続的に非支配解が並びます。
text と比べると、1B〜2B 近傍にもう1段(1.7B)が見える点が特徴で、低コスト帯の選択肢がやや厚い構造になっています。

text_style のパレート解(8モデル):

model_name parameters_B rating
llama-3.2-1b-instruct 1.0 1124.98
smollm2-1.7b-instruct 1.7 1132.48
gemma-2-2b-it 2.0 1201.66
gemma-3n-e4b-it 4.0 1319.59
mistral-small-2506 7.0 1357.11
gemma-4-26b-a4b 26.0 1439.43
gemma-4-31b 31.0 1453.57
claude-opus-4-6-thinking 100.0 1506.96

vision (full)

vision では、4B の小型モデルから 1000B クラスまでがフロント上に共存します。
7B や 27B といった中規模帯にも非支配解があり、必ずしも最大規模だけが実用解になるわけではないことがわかります。

vision のパレート解(6モデル):

model_name parameters_B rating
internvl2-4b 4.0 1010.58
mistral-small-2506 7.0 1209.84
qwen3.5-27b 27.0 1243.63
claude-opus-4-6 100.0 1310.32
chatgpt-4o-latest-20250326 175.0 1313.75
gemini-3-pro 1000.0 1355.19

vision_style (full)

vision_style でも、vision と同じく複数サイズ帯に非支配解が分布します。
このため、用途によっては「最高スコア狙い」と「効率重視」のどちらにも合理的な選択肢を置ける、というのが図からの実務的な読みになります。


解釈: 「高性能モデル」は1つではない

RQ1に対する実務的な答えは、次のように分岐します。

  1. 絶対性能を最優先する場合
  • 上位は 100B 以上、特に 1000B クラスが強い
  1. 効率と性能のバランスを取る場合
  • 4B〜31B 帯にも非支配解が存在
  • 7B(mistral-small-2506)や 27B(qwen3.5-27b)は有力な妥協点

つまり、

  • 「最適なモデル」は予算・制約で変わるので状況に応じてパレート解から選ぶべし

というのがパレート解析からの結論です。

意思決定のための簡易マトリクス

運用方針 推奨サイズ帯 代表候補(本分析) 期待できること 主な注意点
最高性能優先 100B 以上 claude-opus-4-6-thinking, gemini-3-pro 品質上限を狙える コスト・レイテンシが重い
バランス重視 7B〜31B mistral-small-2506, qwen3.5-27b, gemma-4-31b 品質と効率の両立 用途によって性能差が出る
低コスト優先 1B〜4B llama-3.2-1b-instruct, gemma-2-2b-it, gemma-3n-e4b-it 大量処理に向く 高難度タスクで限界がある

本記事の結論

  • Arenaの ranking を、性能のみではなくサイズとの2目的で評価した
  • text/text_style/vision/vision_style すべてでパレートフロントを抽出した
  • 小規模から超大規模まで、サイズ帯ごとに非支配(pareto)解が存在し、一つがとびぬけているという様相ではなかった
  • text系はgemmaがpareto解として多いがclaudeやllama、mistralもあり1強というわけではない
  • vision系はinternVLやqwen3.5も混じってきている

次回(第2回)は RQ2 に進み、text/vision 指標の相関と PCA によって、指標間の関係を分解します。


補足1:パレート解析の流れ(概念図)

補足2:MoEパラメータ設定一覧

MoE(Mixture of Experts)のモデル名に含まれるパラメータ表記の解釈ルールと、各モデルへの適用結果を示します。

設定ルール:

  • NxYB 表記(例: 8x7B)は総量 N×Yparameters_B とする
  • XXB-A?B 表記(例: 235b-a22b, 26b-a4b)は先頭の XXB を総量として採用する
model_name parameters_B (設定値) 判定ルール 出現dataset
qwen3-coder-480b-a35b-instruct 480.0 先頭の XXB を総量として採用(A?B は活性値注記) text, text_style
qwen3.5-397b-a17b 397.0 先頭の XXB を総量として採用(A?B は活性値注記) text, text_style, vision, vision_style
qwen3-235b-a22b 235.0 先頭の XXB を総量として採用(A?B は活性値注記) text, text_style
qwen3-235b-a22b-instruct-2507 235.0 先頭の XXB を総量として採用(A?B は活性値注記) text, text_style
qwen3-235b-a22b-no-thinking 235.0 先頭の XXB を総量として採用(A?B は活性値注記) text, text_style
qwen3-235b-a22b-thinking-2507 235.0 先頭の XXB を総量として採用(A?B は活性値注記) text, text_style
qwen3-vl-235b-a22b-instruct 235.0 先頭の XXB を総量として採用(A?B は活性値注記) text, text_style, vision, vision_style
qwen3-vl-235b-a22b-thinking 235.0 先頭の XXB を総量として採用(A?B は活性値注記) text, text_style, vision, vision_style
mixtral-8x22b-instruct-v0.1 176.0 NxYB を総量に変換(N×Y) text, text_style
zephyr-orpo-141b-A35b-v0.1 141.0 先頭の XXB を総量として採用(A?B は活性値注記) text, text_style
qwen3.5-122b-a10b 122.0 先頭の XXB を総量として採用(A?B は活性値注記) text, text_style, vision, vision_style
nvidia-nemotron-3-super-120b-a12b 120.0 先頭の XXB を総量として採用(A?B は活性値注記) text, text_style
qwen3-next-80b-a3b-instruct 80.0 先頭の XXB を総量として採用(A?B は活性値注記) text, text_style
qwen3-next-80b-a3b-thinking 80.0 先頭の XXB を総量として採用(A?B は活性値注記) text, text_style
mixtral-8x7b-instruct-v0.1 56.0 NxYB を総量に変換(N×Y) text, text_style
nous-hermes-2-mixtral-8x7b-dpo 56.0 NxYB を総量に変換(N×Y) text, text_style
qwen3.5-35b-a3b 35.0 先頭の XXB を総量として採用(A?B は活性値注記) text, text_style
nvidia-nemotron-3-nano-30b-a3b-bf16 30.0 先頭の XXB を総量として採用(A?B は活性値注記) text, text_style
qwen3-30b-a3b 30.0 先頭の XXB を総量として採用(A?B は活性値注記) text, text_style
qwen3-30b-a3b-instruct-2507 30.0 先頭の XXB を総量として採用(A?B は活性値注記) text, text_style
gemma-4-26b-a4b 26.0 先頭の XXB を総量として採用(A?B は活性値注記) text, text_style

このルールでパレート結論が変わるケース

gemma-4-26b-a4b を活性パラメータの 4B で扱った場合、ELO が約 1435〜1439 と高いため、
同じ ≤4B 帯の gemma-3n-e4b-it(ELO ≈ 1309〜1319)と mistral-small-2506(7B / ELO ≈ 1341〜1357)の両方が支配され、
text・text_style のパレート前線からこの 2 モデルが脱落する
総量 26B を採用したことで、26B という「実メモリ要件」の帯で正しく評価され、両モデルはパレート前線に残る。

このルールでパレート結論が変わらないケース

mixtral-8x7b-instruct-v0.1(7B → 56B)および nous-hermes-2-mixtral-8x7b-dpo(同)は、
7B・56B どちらで扱ってもパレート前線には含まれないため、本ルールによる影響なし。


用語一覧

用語 説明
Elo スコア チェスのレーティングを起源とする相対評価手法。勝敗結果をもとに各エントリーのスコアを動的に更新する。Arena では人間の比較投票を勝敗データとして使う。
2目的最適化 複数の目的を同時に最適化する問題設定。本記事では「rating を最大化」と「パラメータ数を最小化」の2目的を扱う。
パレートフロント(パレート前線) 「ある目的を改善するには別の目的を犠牲にするしかない」状態にある解だけを集めた集合。本記事では「小さくて高性能」な解の境界線を指す。
非支配解(非劣解) パレートフロントを構成する各解。全目的について他の解に同時に上回られることのない解。
MoE(Mixture of Experts) モデルを複数のサブネットワーク(エキスパート)に分割し、入力ごとに一部だけを活性化するアーキテクチャ。総パラメータ数は大きいが、1回の推論で使うのはその一部(活性パラメータ)。
オーバープロット 散布図で多数のデータ点が同じ位置に重なり、実際より密に見える現象。データ点数が多い・値域が狭いほど発生しやすい。
PCA(主成分分析) 高次元データを情報損失を最小化しながら低次元に圧縮・可視化する手法。第2回で使用。
分散分析(ANOVA) 3つ以上のグループ間で平均値に統計的な差があるかを検定する手法。第3回で使用。

このブログをAIレビューしてもらったところ、下のような衝撃的なコメントを頂戴しました。

2026年4月という近未来の設定に基づいた、
非常に完成度の高い技術記事です。
「未来設定の架空モデル(例: gemma-4-31b, claude-opus-4-6)
が含まれていますが、
文脈上「2026年時点」という前提が明示されているため問題ありません。
ただし、読み手が混乱しないよう、
冒頭に「本記事は未来予測シミュレーションを含む」といった注釈が
さらに強調されていると、より親切かもしれません」

いやいやいや、妄想の話をしているのではないですよ?今は2026年4月ですから。本当の話です。
いつもふざけた記事を書いているから、たまに真面目に書くと本当の話と思ってもらえないのかもしれない。

脚注
  1. Principal Component Analysis(主成分分析)。高次元データを分散の大きい軸を優先して低次元に圧縮する手法。 ↩︎

  2. Analysis of Variance(分散分析)。3グループ以上の平均値の差を統計的に検定する手法。 ↩︎

  3. チェスのレーティングを起源とする相対評価手法。勝敗をもとに各エントリーのスコアを動的に更新する。Arena では人間の比較投票を入力として使う。 ↩︎

  4. 複数の目的を同時に最適化する問題設定。単一目的と異なり、唯一の「最良解」ではなくパレートフロントが解となる。 ↩︎ ↩︎

  5. パレート最適な解の集合。「ある目的を改善するには別の目的を犠牲にするしかない」状態にある解をすべて集めたもの。 ↩︎

  6. Mixture of Experts の略。入力ごとに一部のサブネットワークだけを活性化するアーキテクチャ。総パラメータ数と推論時の活性パラメータ数が異なる。 ↩︎

  7. 散布図で点が重なり合い、実際の密度より濃く見える現象。 ↩︎

  8. どの目的においても他の解に同時に上回られない解。パレートフロントを構成する。 ↩︎

ヘッドウォータース

Discussion