🔥

ArenaAI分析第2回: Arenaを違う角度で見てみたら?

に公開

はじめに

本記事は、2026年4月時点の Arena データを使った分析ブログ3回連載の第2回です。近未来の空想のお話ではありません。

  • ArenaAI分析第1回: 「バランスの取れた良いモデル」を探せ!
  • ArenaAI分析第2回: Arenaを違う角度で見てみたら?
  • ArenaAI分析第3回: モデルファミリー差の分散分析[1]

第1回では、「強いモデル」と「効率の良いモデル」をパラメータ数との関係から整理しました。
https://zenn.dev/headwaters/articles/025705d64b2e6f

今回は一歩進めて、Arena の複数指標がどの程度同じものを測っているのか、逆にどこに差が残るのかを見ます。

今回のリサーチクエスチョンは次のとおりです。

RQ2: text/vision 系の評価指標は、どの程度同じ能力を測っているのか。違いがあるなら、どこに残るのか?

本記事では、相関係数[2]と PCA[3] を使って、この問いに答えます。
結論を簡単に言うと相関はかなり高いので情報量はそれほど多くは無い。
全体の分布としてはEloRating方向と次点の数学能力方向で特徴づけしてみることができそう。ということです。

PCAは解説にもある通り主成分分析という高次元空間を2次元に変換する昔からある分析手法です。目的としてはt-SNEなどと似ています。

イメージだけで説明するとこんな感じ↓


先に結論

今回も前回同様Arenaの中のtext・text_style・vision・vision_styleについてピックアップして調べます。なぜこの4つを選んだかというと、これらの基準が一番一般的でデータも多いためです。
先に要点だけ述べると、今回の結果は次の3点にまとまります。

  1. text・text_style・vision・vision_style の指標は、全体として非常に強く相関している。
  2. PCA では、どの dataset でも第1主成分[4]がほとんどの分散[5]を説明し、まずは「総合的な強さ」が支配的に効いている。
  3. それでも第2主成分[6]を見ると、text 系では「数学・コーディング寄り」と「創作・言語寄り」の差、cross-dataset では「text 側に強いか」「vision 側に強いか」という差が残る。

特にPCAではvisionとtextの両方に項目があるモデルを選んでいるので当然の結果です。つまり、vision機能が高いモデルはtextの機能も高いということ。
そのうえで、二次的な差として得意分野の偏りが現れます。
なので、今回の分析はvisionの中でどう選ぶかという観点です。


データと分析条件

今回は、第1回の full 集計とは少し違い、各 dataset の latest snapshot を使ってカテゴリ間の相関と PCA を行いました。
また、dataset をまたいだ比較では、4指標すべてが揃っているモデルだけを使っています。

分析条件は次のとおりです。

  • text: 2026-04-07 時点の最新スナップショット
  • text_style: 2026-04-07 時点の最新スナップショット
  • vision: 2026-03-31 時点の最新スナップショット
  • vision_style: 2026-03-31 時点の最新スナップショット
  • 欠損値を含む行は除外し、共通して比較できる行だけを使用(complete case[7]
  • 相関は Spearman[8] と Pearson[9] を計算
  • PCA では各列を標準化したうえで主成分を抽出

集計対象は次のとおりです。

dataset latest_date models カテゴリ数 PC1 説明率 PC2 説明率 累積説明率
text 2026-04-07 277 26 0.980 0.006 0.986
text_style 2026-04-07 277 26 0.976 0.008 0.985
vision 2026-03-31 110 2 0.998 0.002 1.000
vision_style 2026-03-31 110 2 0.997 0.003 1.000
cross-dataset overall - 82 4 0.953 0.032 0.985

この表だけでも、かなり強い傾向が見えています。
どの dataset でも PC1 の寄与が非常に大きく、特に vision 系はほぼ1次元と見てよい水準です。


まず相関を見る

text 系カテゴリは、ほぼ全部が一緒に動く

まず text のカテゴリ間相関を見ます。

ヒートマップ全体が濃い赤で埋まっており、ほぼすべてのカテゴリ同士が強い正の相関を持っていることがわかります。
実際、text の Spearman 相関の最小値でも 0.9238(codingkorean の組み合わせ)でした。
text_style でも最小値は 0.9209(industry_mathematicalkorean)で、傾向はほぼ同じです。

代表的な組み合わせを見ると、次のようになっています。

  • text: englishoverall の Spearman 相関は 0.9961
  • text: exclude_tiesoverall の Spearman 相関は 0.9997
  • text_style: englishoverall の Spearman 相関は 0.9960
  • text_style: exclude_tiesoverall の Spearman 相関は 0.9996

この時点で、text 系の指標はかなり強く同じ方向を見ているといえます。
あるカテゴリで強いモデルは、他のカテゴリでも強いことが多い、ということです。

vision 系は、さらに単純

vision と vision_style は、今回の latest snapshot で十分なカバレッジ(70%以上)を持つカテゴリが englishoverall の2列だけでした。
そのため PCA は2列で構成しています。
この2つの相関は非常に高く、次の値になっています。

  • vision: Spearman = 0.9942, Pearson = 0.9951
  • vision_style: Spearman = 0.9934, Pearson = 0.9941

つまり vision 系は、少なくとも今回の最新スナップショットでは、ほぼ1本の軸で並んでいると考えてよさそうです。


PCAで見ると何が残るか

PCAはこんな感じで分析できます。最初の方にある標準化が重要です。詳しくはAIに聞いてください。

import pandas as pd
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler

def main(mat):
    scaler = StandardScaler()
    x = scaler.fit_transform(mat.values)

    pca = PCA(n_components=2, random_state=42)
    z = pca.fit_transform(x)

    loadings = pd.DataFrame(
        pca.components_.T,
        index=feature_cols,
        columns=["PC1", "PC2"],
    ).rename_axis("feature").reset_index()

text では PC1 が「総合力」、PC2 が「得意分野の差」を表す

text の PCA の負荷量[10]をみると、PC1 では全カテゴリがほぼ同じ重みを持っています。

PC1 の負荷量はどのカテゴリでもほぼ 0.19〜0.20 でそろっています。
これは、PC1 が「特定カテゴリだけの強さ」ではなく、広い範囲で通用する総合力を表していることを意味します。

一方、PC2 には差が残ります。
text では、PC2 の正側に次のカテゴリが出ています。

  • creative_writing (+0.347)
  • industry_writing_and_literature_and_language (+0.238)
  • industry_entertainment_and_sports_and_media (+0.230)

反対に、PC2 の負側には次のカテゴリが出ています。

  • industry_mathematical (-0.334)
  • coding (-0.334)
  • math (-0.330)
  • expert (-0.262)

このため、text の PC2 は大まかにいえば、
「創作・言語寄り」対「数学・コーディング寄り」 の軸として読めます。

text_style でも同じ種類の差は残っています。
ただし text_style では PC2 の符号が text と逆向きになっています。
これは PCA の仕様で、軸の向きは数学的に任意です。
重要なのは正負そのものではなく、どのカテゴリ同士が分かれているかです。
text_style でも creative_writing / korean 系と math / coding 系が PC2 の両端に分かれており、構造は text と同じです。

vision 系の PCA は、ほぼ1次元

vision と vision_style では PC1 の説明率がそれぞれ 0.998、0.997 でした。
PC2 は 0.002、0.003 にすぎません。

これは、vision 系では「第2の独立した軸」を強く読むのが難しいことを意味します。
今回のデータでは、vision 系の評価はまず総合力1本で並んでいる、と解釈するのが自然です。


dataset をまたぐと、text と vision はどれくらい似ているか

ここからは、各 dataset の overall 同士を直接比べます。
対象は、text / text_style / vision / vision_style の4指標すべてが揃っている 82 モデルです。

overall 同士の相関はかなり高い

主要な相関係数は次のとおりです。

pair Spearman Pearson
text vs text_style 0.9843 0.9893
vision vs vision_style 0.9800 0.9880
text vs vision 0.9357 0.9278
text vs vision_style 0.9206 0.9162
text_style vs vision 0.9160 0.9029
text_style vs vision_style 0.9523 0.9380

当然ながら、同じモダリティ同士の相関が最も高くなっています。
ただし注目すべきなのは、text と vision をまたいでも 0.91〜0.95 の高い相関があることです。

この結果から、Arena における強いモデルは、text だけ、vision だけで極端に分かれるというより、両方である程度強いことが多いといえます。

cross-dataset PCA では PC1 が共通の強さ、PC2 が text vs vision の差になる

主成分軸(PC1/PC2)の最大・最小 top3 モデル

axis direction rank model_name axis_value parameters_B
PC1 max 1 claude-opus-4-6-thinking 3.5634 100
PC1 max 2 claude-opus-4-6 3.5096 100
PC1 max 3 gemini-3.1-pro-preview 3.2241 1000
PC1 min 1 claude-3-haiku-20240307 -4.9788 -
PC1 min 2 amazon-nova-lite-v1.0 -4.3518 -
PC1 min 3 claude-3-sonnet-20240229 -4.3160 -
PC2 max 1 hunyuan-large-vision 1.2619 -
PC2 max 2 step-1o-turbo-202506 0.6721 -
PC2 max 3 mistral-small-3.1-24b-instruct-2503 0.6630 24
PC2 min 1 amazon-nova-pro-v1.0 -0.9239 -
PC2 min 2 mistral-medium-2508 -0.7872 120
PC2 min 3 grok-4-1-fast-reasoning -0.6974 314

PC1 では4指標すべてがほぼ同じ重みを持っているのでPC1 は、text と vision をまたいだ共通の総合力です。

一方 PC2 では、text 系が負、vision 系が正になっています。
この図の向きでは、PC2 は text 側の強みと vision 側の強みの差 を表しています。
ただし先ほどと同じく、PCA の符号自体は任意なので、重要なのは「text 系と vision 系が逆方向に効いている」という点です。

散布図でも、右側に高性能モデルが集まり、上下方向には text 寄りか vision 寄りかの差が少しだけ残っています。
たとえば PC1 の高い領域には claude-opus-4-6-thinkingclaude-opus-4-6gemini-3.1-pro-previewgemini-3-pro が並びます。

下が主成分軸散布図をvision Elo-ratingで色分けした結果です。PC1軸はほぼrating軸でした。

下がPC2のloadingの値です。これから言えるのはcreative_writingやindustry_writing_and_literature_and_languageのようなテキストよりの能力で、industry_mathematicalが低くなっているので、解釈としては言語能力の中でも数学的かどうかに近くなっているということです(ただし方向は逆方向)。
Koreanのloadingが高くなっているのは謎ですが、これに投票したKorean話者の話が数学的じゃないものが多かったという結果かもしれないです。

わかっているとは思いますが、主成分についてはどちらの方向が良いか悪いかを示すものではないです。


PC2の負荷量(loading)


実務的にはどう読むべきか

RQ2 に対する実務的な答えは、次のようになります。

1. 最初の候補絞り込みには、overall や PC1 を使えばよい

相関がここまで高いなら、最初のスクリーニング段階では個別カテゴリを細かく見る前に、overall や PC1 を使って候補を絞るのが合理的です。
特に上位モデルでは、text と vision の両方で強いことが多いためです。

2. ただし選定としては PC2 側の差を見たほうがよい

総合力が近いモデル同士では、数学・コーディングに寄るのか、創作・言語に寄るのか、あるいは text に寄るのか vision に寄るのかといった差が残ります。
ここが、ベンチマーク設計や最終A/B評価で効いてくる部分です。

3. vision 系は、今回のデータだけでは細かな軸を読みすぎないほうがよい

今回の vision 系 PCA は englishoverall の2列で構成されており、実質的には1次元に近い構造でした。
そのため、vision 側の細かな得意不得意を論じるには、より多くのカテゴリや別ベンチマークを併用したほうが安全です。

読み手別の実務アクション

  • 上位モデルは複数指標で同時に強いことが多く、用途ごとに完全に別スタックを持つ必要は必ずしもない。
  • ただし中位帯では得意分野の偏りが残るため、1モデル集約か用途別分岐かは業務内容で決めるべき。

本記事の結論

  • text・text_style・vision・vision_style の指標は全体として非常に強く相関しており、パフォーマンスに強い要因がある
  • PCA では、どの dataset でも PC1 が大半の分散を説明し、まずは共通の総合力が支配的だった
  • それでも PC2 を見ると、text 系では「数学・コーディング寄り」と「創作・言語寄り」、cross-dataset では「text 寄り」と「vision 寄り」の差が残った

第1回では「サイズと性能のトレードオフ」を見ました。
第2回の結論は、それとは別に「評価指標そのものはかなり似た方向を向いている」ということです。

次回(第3回)は RQ3 に進み、モデルファミリー差を分散分析で見ます。

https://zenn.dev/headwaters/articles/5d733ad9c400c4


用語一覧

分析の中の専門用語は以下の通り。詳しく知りたければ自分でGGR..

用語 説明
Spearman 相関 値そのものではなく順位の並び方の似ている度合いを見る相関係数。外れ値の影響を受けにくく、単調な関係に強い。
Pearson 相関 値の線形な関係の強さを見る相関係数。
PCA(主成分分析) 複数の変数を、情報をなるべく失わずに少数の軸へ圧縮する手法。
主成分(PC1, PC2) PCA で得られる新しい軸。PC1 は最も大きな分散を説明し、PC2 はその次を説明する。
分散説明率 各主成分が、元データのばらつきをどれだけ説明しているかを示す値。
負荷量 各元変数が、各主成分にどの程度効いているかを示す係数。
complete case 欠損値のない行だけを使って分析する方法。
モダリティ text や vision のような、入力や評価対象の種類。

脚注
  1. Analysis of Variance(分散分析)。3群以上の平均値差を統計的に検定する手法。 ↩︎

  2. 本記事では、順位の似方を見る Spearman 相関と、値の直線的な似方を見る Pearson 相関を使う。 ↩︎

  3. Principal Component Analysis(主成分分析)。多変量データを少数の軸に圧縮し、共通構造と差分構造を見やすくする手法。 ↩︎

  4. 第1主成分。最も大きな分散を説明する軸。 ↩︎

  5. データのばらつきの大きさ。PCA では、このばらつきをよく説明する軸から順に取り出す。 ↩︎

  6. 第2主成分。PC1 で説明しきれなかった残差のうち、次に大きな分散を説明する軸。 ↩︎

  7. 欠損のない行だけを残して分析する方法。カテゴリごとの欠損が多い場合は、使えるサンプル数が減る。 ↩︎

  8. 順位相関。値の大きさではなく順位の一致度を使うため、外れ値の影響を受けにくく、「順番が似ているか」を見やすい。 ↩︎

  9. 線形相関。値の大きさがどれだけ一直線に並ぶかを見る。 ↩︎

  10. PCA で得られる係数。各カテゴリが PC1 や PC2 にどれだけ寄与しているかを表す。 ↩︎

ヘッドウォータース

Discussion