💥

ArenaAI第4回: 論文紹介 AI vs AI で格付けする仕組み

に公開

本記事は、2026年4月時点の Arena データを使った分析ブログのおまけの第4回です。論文の話をします。

第1回から第3回までは、Arena のスコアを分析して、モデルの性能と効率のトレードオフや、指標同士の相関、モデルファミリー差の有無などを見てきました。

https://zenn.dev/headwaters/articles/025705d64b2e6f
https://zenn.dev/headwaters/articles/74233d7267387f
https://zenn.dev/headwaters/articles/5d733ad9c400c4

全くの私の主観ですが、LLM の性能は1年でかなり進歩したように思います。規模が大きいものから小さいものまで選択の幅が広がりました。一方で業務で様々なLLMを使ってきましたが、LLMによって得手不得手があることもわかってきました。ベンチマークでは高得点なのに、実際に触るとそれほど良く感じないモデルがある一方で、定番ベンチでは目立たなくてもユーザー体験では強いモデルもあります。

こういった既存のベンチマークとのギャップを埋める評価基盤として注目されているのが、LMSYS の Chatbot Arena です。本記事では、arXiv:2403.04132「Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference」を中心に、

  • なぜ従来の静的ベンチマークだけでは足りないのか
  • Chatbot Arena は何をどう評価しているのか
  • その仕組みがなぜ実務的に重要なのか

を整理します。

なお、後半では WizardArenaArena Learning といった関連研究にも触れます。ただし、これらは Chatbot Arena 論文そのものの主題ではなく、アリーナ型評価の発展例として扱います。

1. なぜ従来のテストではAIの実力が測りきれないのか

MMLU、HellaSwag、GSM-8K のようなベンチマークは、あらかじめ用意された問題と正解に基づいてモデルを比較する、いわゆる静的ベンチマークです。これらは正解がある問題を正確に解くことを目指したテストと言えますが、LLMの品質というと正確さだけではありません。
Chatbot Arena 論文が強調しているのは、LLM の評価対象が単なる知識量ではなく、人間の好みにどれだけ沿うかという点に移ってきていることです。さらに、固定ベンチマークには少なくとも次の限界があります。

  • テストセットが固定されているため、学習データとの重複や汚染の影響を受けやすい
  • 選択式や短答式では、実運用に多いオープンエンドなタスクを十分に表現しにくい
  • ユーザーが本当に重視する「読みやすさ」「有用性」「指示への忠実さ」を直接測りにくい

要するに、静的ベンチマークは必要ですが、それだけで「使って強いモデル」を決めるのは難しい、ということです。

2. Chatbot Arenaとは何か

Chatbot Arena は、複数の LLM を人間の好みに基づいて比較するための公開プラットフォームです。やり方はかなりシンプルです。

  1. ユーザーが1つのプロンプトを入力する
  2. システムが匿名化された2つのモデルの回答を提示する
  3. ユーザーが「どちらが良いか」を投票する
  4. その結果をペアワイズ比較データとして蓄積し、ランキングに反映する

モデル名は投票後に開示されるため、ブランドバイアスをある程度抑えつつ、人間の主観的な好みをデータとして収集できます。

論文時点では、数か月の運用で 24 万票超の投票が集まり、100 以上の言語をカバーしていたと報告されています。単なる社内評価ではなく、公開環境で多様なユーザーから継続的に評価データを集めている点が特徴です。

3. 何が新しいのか

Chatbot Arena の新しさは、モデルを「正解との一致率」で測るのではなく、「人間がどちらを好むか」で測るところにあります。

このとき、投票結果はそのまま集計するのではなく、Bradley-Terry モデルと呼ばれる統計的ペア比較手法を用いてレーティング化されます。将棋や囲碁のレーティングと発想が近く、勝敗の積み重ねから各モデルの相対的な強さを推定します。これにより、個々の主観的な投票を、比較可能なランキングへと変換できます。

ここで重要なのは、「完全に客観的な真理」を作っているわけではない、という点です。ユーザは自分でプロンプトを決めることができ、その回答を判断します。
Chatbot Arena が与えるのは、あくまで人間選好に基づく相対評価です。ただし、その相対評価が大規模かつ継続的に集まることで、他の指標では表れにくい品質について測れるのではないかと考えています。

モデル名はブラインドで、未公開のモデルも評価できるらしいです。

論文(Chiang et al. 2024)中のモデル間の勝率とバトル数に関するグラフを引用します。

実際には、比較(バトル)にも偏りが出るので、このグラフで表される勝率ではなく、次で説明するBradley-Terryモデルという統計手法を使ってランキングが決まります。

Bradley-Terryモデルを直感的にみる

Bradley-Terry モデルでは、各モデル i に「見えない強さ」s_i があると考えます。そして、モデル i がモデル j に勝つ確率を、2つの強さの差だけで表します。

P(i \succ j)=\frac{\exp(s_i)}{\exp(s_i)+\exp(s_j)} =\frac{1}{1+\exp(-(s_i-s_j))}

  • s_i=s_j なら勝つ確率は 0.5 で五分五分
  • s_i-s_j が大きいほど、i が選ばれやすくなる
  • 必要なのは絶対値ではなく「差」なので、ペア比較データと相性がよい

Chatbot Arena では、個々の投票をこの式に当てはめ、全体として最も尤もらしくなる s_i を推定します。つまり、1票ごとの主観的な「Aの方が良かった」を積み重ねて、モデル全体の相対順位を復元しているわけです。全てのモデルが総当たりしていなくても、A が B に勝ち、B が C に勝つという情報が蓄積すれば、A と C の関係もある程度推定できます。

Bradley-Terryモデルのイメージ図

例えば s_A-s_B=0 なら A が勝つ確率は 50\%s_A-s_B=\log 3 なら約 75\% です。差が少し広がるだけで勝率は滑らかに変わるため、単純な勝率平均よりもノイズに強いランキングを作りやすくなります。

スコア差 s_i-s_j i が選ばれる確率
0 50\%
\log 3 75\%
2 88\%

Leaderboard では Elo 風のスコア表記が使われることがありますが、発想の核はこの Bradley-Terry 型の「ペア比較から潜在的な強さを推定する」考え方です。論文を読むときは、Elo を別物と考えるより、Bradley-Terry 的な比較確率モデルの実用的な表示形式と捉えると理解しやすいです。

4. 群衆評価は本当に信頼できるのか

他の正解がある指標に比べて、正解があるかどうか定かではないので不安があるかもしれません。
論文は下の観点から妥当性・有効性を主張しています。

  • 収集されたプロンプトは多様で、特定の少数タスクに偏っていない
  • 群衆投票は、専門評価者の判断と概ね整合している
  • ペア比較の統計モデルによって、効率的かつ安定的にランキングできる

特に面白いのは、ユーザーが送るプロンプトの話題が非常に広く分散していることです。論文では、最大のトピック群でも全体のごく一部にとどまり、多数の小さなカテゴリが全体を占めることが示されています。つまり「よく来る質問」が少数に集中するのではなく、無数の少量の話題がバラバラに来るという構造です。これは、固定問題集だけでは測れない能力差が、アリーナ型の評価で見えやすいことを示唆しています。

自分の所感ですが、
分析の結果、創作能力と数学能力のばらつきがみられましたが、ここに言語の軸も入ってきていました。国によってこのとらえ方も違っていそうです。→第二回
また、他のLLMに比べてClaudeの応答が良いということはよく言われていますが、Chatbot Arenaの分析ではかなり強いという結果だったので、感覚的なものと近いという印象です。→第3回

5. 静的ベンチマークとの違い

静的ベンチマークと Chatbot Arena は、どちらが上というより、測っているものが少し違います。

観点 静的ベンチマーク Chatbot Arena
評価対象 正解との一致、特定能力 人間選好に基づく総合的な応答品質
問題セット 固定 ユーザー生成で動的
強み 再現性が高い、比較がしやすい 実利用に近い、未知のタスクに強い
弱み テスト汚染やベンチマーク特化学習の影響を受けやすい 投票母集団やUI設計の影響を受けうる

実務的には、静的ベンチマークで基礎能力を見つつ、Chatbot Arena のような人間選好ベースの評価で実用面を補完する、という使い方が自然です。

6. 関連研究:AIがAIを評価する方向へ

ここからは Chatbot Arena 論文本体ではなく、そこから派生した関連研究の話です。

人間評価は信頼性が高い一方で、時間もコストもかかります。そこで近年は、強力な LLM を judge model として使い、人間の評価プロセスを部分的に代替・近似しようとする研究が増えています。 WizardArena はその文脈にある取り組みの1つです。

この方向性の狙いは明確です。

  • 評価を高速化したい
  • 新モデルの比較実験を大量に回したい
  • 人手評価の前段としてスクリーニングしたい

ただし、AI judge は人間評価の完全な代替ではありません。論文や実験で高い相関が報告されていても、その一致率は評価設定や審判モデル、対象タスクに依存します。したがって、「人間評価を置き換えた」と強く言うよりは、「人間評価を補完・加速する仕組み」と捉えるほうが安全です。

7. Arena Learningという発想

アリーナ型の仕組みは、評価だけでなく学習にも応用できます。代表例が、敗北したサンプルから学習データを作り、次の学習に回すような Arena Learning の発想です。

概念的には、次のような流れになります。

  1. モデル同士を対戦させる
  2. 負けたケースを集める
  3. 良い回答と悪い回答の差分を学習する
  4. 再学習後にもう一度アリーナで比較する

これは、単に「正解を暗記する」学習ではなく、人間がより好む振る舞いへ寄せていくためのフィードバックループとして理解できます。既存ベンチマークが飽和しやすい状況では、こうした継続的に更新される評価・学習ループはかなり魅力的です。

8. なぜこの仕組みが強いのか

アリーナ型評価の強みは、データの多様性にあります。現実のユーザーは、数学だけ、コーディングだけ、要約だけを依頼するわけではありません。雑談、翻訳、企画、相談、長文生成、画像説明、旅行計画など、要求は非常に広い範囲に散らばります。

このような分布では、代表的な少数タスクだけを極めても、全体の満足度は上がりません。ユーザーの要求は非常に多様で、「これだけやれば万全」という問題セットが作れないためです。Chatbot Arena は、まさにその「生きたプロンプト」を拾えるところが大きいわけです。

言い換えると、静的ベンチマークが「特定課題の解答能力」を測るのに向いているのに対して、アリーナ型評価は「幅広い現実タスクへの適応力」を見るのに向いています。

9. まとめ

Chatbot Arena (Arena AI) の功績は、LLM 評価を固定問題集中心の世界から、人間選好中心の世界へ押し広げたことにあります。

本論文から読み取れるポイントをまとめると、次の通りです。

  • LLM の実用評価では、人間選好を無視できない
  • 群衆によるペア比較でも、適切な統計処理を通せば有用なランキングが得られる
  • ユーザー生成プロンプトは非常に多様で、静的ベンチマークでは拾いにくい差を可視化できる
  • アリーナ型評価は、将来的に学習ループLLM-as-a-judge とも結びついていく可能性が高い

LLM の競争は、単なる正答率競争から、「人間にとってどちらがより役に立つか」をめぐる競争へ移りつつあります。
Chatbot Arena は、その変化を象徴するプラットフォームだといえます。

引用

  • CHIANG, Wei-Lin, et al. Chatbot arena: An open platform for evaluating llms by human preference. arXiv preprint arXiv:2403.04132, 2024.
  • LUO, Haipeng, et al. Wizardarena: Post-training large language models via simulated offline chatbot arena. Advances in Neural Information Processing Systems, 2024, 37: 111544-111570. link
  • LUO, Haipeng, et al. Arena learning: Build data flywheel for llms post-training via simulated chatbot arena. arXiv preprint arXiv:2407.10627, 2024.
ヘッドウォータース

Discussion