🤖

論文メモ:A Survey on LLM-as-a-Judge

2025/02/09に公開

これは何?

LLM-as-a-Judgeに関するサーベイ論文の個人的な要約メモになります。
だいぶ前にダウンロードしており、最近読んで個人的にメモを作っていたところ、2月に内容がアップデートされていることに気づきました。
アップデート内容も記載しておくことで意味があるのでは、と思い記事にしました。

https://arxiv.org/abs/2411.15594

LLM-as-a-Judgeとは

  • 人間による評価を大規模言語モデル (LLM) に行わせようという考え方
    • LLMに成果物の「レビュー」をさせる等が当てはまる
  • LLMの出力は最終評価。すなわちスコア、選択肢、文章などである
    • 「要約の正確性は65/100」
    • 「question: AとB、どちらが良いか。Answer:A」
    • 「誤字が見られます。〇〇と修正してください」
  • 期待されること
    • 評価者の作業負荷や労力を減らし、疲労による信頼性や精度の低下を防ぐ
    • 評価者ごとの答えのバラツキを軽減でき、客観性を高める
    • 専門家など一部の人間しか出来ない評価に対応できる
    • LLMの性能向上、サービスの品質改善に応用可能

LLM-as-a-Judgeを構成するアプローチ方法

以下の4つの段階で評価が行われる。

In-Context Learning

  • 入力データとプロンプトを入れて、プロンプト内で評価の設計をする。
    • スコアの生成:「要約の正確性、有効性を0-100の間で判断して」
    • Yes/Noの判定:「入力データの修正は必要か?"Yes" or "No" で答えて」
    • 一対比較法:「AとBのデータ、どちらの要約が良い?」
      • 1対1で評価を続け、全てのデータの比較結果を出して評価する手法
      • A,B,Cがあったら(A,B), (B,C), (A,C) で比較し、A>B>Cのように相対的なランク付けを行う
    • 多肢選択式の評価:「要約データと、幾つかの単語がある。要約データに関係する単語の番号を返して」

モデル選択

  • GPT-4のような高度な言語モデルを採用することが1つの効果的なアプローチ
    • LLM-as-a-Judge法の有効性はLLMの性能に依存する
    • 但しプライバシー漏洩や、APIモデルの不透明性が評価の再現性の課題となりうる
  • 外部APIが使えない場合は、評価に特化したfine-tuningモデルの利用がある
    • 但し、評価能力には限界がある

Post-Processing

  • 出力の体裁にバラツキがあるため、必要な情報を取るための工夫をする
    • 「修正必要ですか?」→「yes」「必要あります」「結論:必要」など同じ質問でも回答の文章がばらつく
    • プロンプトで出力の体裁を指示したり、幾つか出力の例を提示することで対応
  • JSONなど決まった形式で出力をする
    • 構文的に有効な出力を保証する一方で、出力品質を劣化させる可能性もある
  • "yes" or "No" の場合、その単語が出る確率を取り出す
  • 文章や段落として抽出し、再度エージェントに質問やアクションをさせることで最終的に評価しやすい出力を得やすくなる

Evaluation Pipeline

LLM-as-a-Judgeは以下の4つのシナリオで使われる。

  • モデルの性能評価
  • データアノテーションの自動化
  • エージェントとしてタスクの全プロセスの評価、もしくは特定の段階で評価
  • 推論/思考のための評価
    • LLMの推論パスと選択を評価し、LLMの推論能力を向上させる
    • 強化学習のLLM-as-a-judgeによって、o1, Deepseek-R1, gemini-thinking, QVQなど、高度な推論・思考能力を持つ強化学習で学習したLLMが注目されている

Quick Practice

LLM-as-a-judgeの実践のプロセスは4つの段階がある

  1. ユーザーが何を評価するか特定、人間が通常どのように評価するか把握し、信頼できる評価例から基準を定義するための思考
  2. プロンプトデザイン (単語やフォーマットを整える)
  3. 信頼性の高い評価をするための強力な推論能力と指示追従能力を持つモデルを選択
  4. 評価プロセスの標準化

Improvement Strategy

LLMを使って評価する場合、バイアスを対処することで評価結果の劣化を低減する必要がある。
以下の3つの戦略がある。

評価プロンプトの設計戦略

評価タスクを理解し、評価結果を生成するのを助けるような最適なプロンプトを設計する方法が、評価性能を向上させる最も直接的で効果的な方法。

  • few-shotプロンプトを取り入れる
  • 評価タスクのステップと評価基準を細かく分解し設定する

出力形式の最適化

LLM評価機に直接評価結果を出力することを要求すると、ロバスト性に問題が生じる。

  • スコアで出すように求めている時に「関連性の低い」文章を出力するなど、LLM特有のランダム性により応答テキストが変化する
    • 対応: プロンプト内で出力形式を構造化された形式で制約する
  • 出力結果を直接だすことは解釈可能性の欠如につながる。
    • 対応: 結果だけではなく根拠も出力するようにする

LLMの能力向上戦略

プロンプト設計は効果があるものの、GPT-4のような最先端のLLMでさえ、プロンプトの指示の概念を混乱して認識することがある。
その場合は、以下のような対応がある。

  • メタ評価データセットを通じてLLMをfine-tuningする
  • 評価結果のフィードバックに基づいてモデルを反復的に最適化する

メタ評価データセットによるfine-tuning

LLMの特定の評価プロンプトに対する理解と評価性能を向上させ、潜在的なバイアスを対処するのに役に立つ。
この方法の重要なステップは、学習データの収集と構築である。

  • 公開されているデータセットから評価問題をサンプリング
  • 特定のテンプレートで修正
  • データセットに手動またはGTP-4のように性能の高いLLMで生成された評価応答を補足

評価結果のフィードバックに基づく反復最適化

メタ評価データセットでLLMをfine-tuningすることで人間の嗜好に沿った評価を生成する能力を得ることが出来る。
但し、実際の評価プロセスにおいてバイアスが入る可能性があり、全体的な評価品質に影響を与える可能性がある。

  • 対応: 評価結果のフィードバックに基づいてモデルを繰り返し最適化する

性能の高いモデルか人間による直接の修正を行う。

最終結果の最適化戦略

In-Context Learning とモデルの性能に基づく最適化によって、LLMは評価タスクの要件を理解し、合理的な評価結果を行うことができる。
但し、LLMのランダム性は依然として評価結果の不安定さをもたらし、評価品質に影響を与える。
そのため、後処理の段階で最適化戦略が必要。その最適化戦略は以下の3つ。

  • 複数の評価結果の統合
  • LLMの出力の直接最適化
  • 点評価から一対比較への評価タスクの変換

複数評価結果の統合

  • 異なるパラメータと設定を持つモデルで、同じコンテンツを複数回評価しそれらを要約
    • 複数の結果を平均化することで、出力のランダム性による影響を軽減

LLMの出力の直接最適化

  • 単一のLLMでスコア出力を行う場合:スコアを出したときのトークン確率と明示的な出力スコアを出す

ただし、上記の手法は、モデルがオープンソースであることや、トークン確率へのアクセスを提供するインターフェースが必要で、適応できるモデルに限りがある。
そのため、どのモデルでも出来る手法として自己検証がある。

  • 評価結果の確実性を尋ね、自己検証に合格した結果のみを保持する

これら2つの方法は相反しないため、組み合わせることでより安定した評価結果を得られる可能性がある。

LLM評価者の評価

LLM-as-a-judgeの主な目的は、人間の評価との整合性を達成することである。
LLMを仮想アノテーターとみなし、人間のアノテーターとの一致度を評価する。

分類問題として扱う場合もあり、人間の注釈をラベルとして機能させ、precision, recall, F1スコアを計算する。

Bias

Position Bias

LLMがプロンプト内の特定の位置の回答を好む傾向のことを指す。
選択肢を並べた時に、質問の内容にかかわらず最初の選択を正解として出力するなど。

Length Bias

冗長な回答を好む傾向のことを指す。
無駄な文章を出力し、回答が長くなってしまう。例えば要約タスクに、必要のない情報が入ってきてしまい、出力の品質を劣化させてしまう。

Self-Enhancement Bias

LLMが自分自身で生成された応答を好むという現象。
あるタスクを行うモデルと、その結果を評価するモデルが同じ場合、客観的に評価されない場合がある。

Other Bias

  • Diversity Bias: 性別、人種などの特定の集団のバイアス
  • 視覚的なコンテンツへのバイアス:絵文字などを好む
  • 具体的バイアス:引用・数値などの特定な詳細の情報を好む

敵対的ロバスト性

注意深く作られた入力によってスコアを意図的に操作しようという試みに耐えるモデルの性能を指す。
ロバスト性が不十分の場合、些細な操作でLLMの評価を欺き、品質の評価を損なう可能性につながる。
特に高リスクのアプリケーションに対して、正確で信頼性の高い評価を維持するためには、LLMの評価をロバストにしておく必要がある。

有効性の実験

LLMEval と呼ばれるベンチマークを用いて、人間の評価との整合性をチェック。
また、EVALBIASBENCH を用いて6種類のバイアスを測定した。

結果としては、GPT-4は他のLLMと比べると、評価の整合性を上回り、バイアスも少ない。
追加検証として、より高い推論能力を持つgemini、o1-mini、deepseek r1にも行った。GPT-4と比べると同等の性能を出しているが、改善という点では期待された結果ではない。

異なる戦略での比較

表4では、GPT-3.5-turboの評価性能を向上させるための戦略ごとの結果を示している。

  • 説明付き: 結果の理由をつけさせることで解釈可能性を提供させる試み。しかし、性能・バイアスの観点では劣化させている。
  • 多数決: 繰り返し評価を行い、その後多数決を取る選択。ランダム性を軽減、バイアスの問題に対処できる。
  • 複数LLMの評価: セット1とセット2で評価
    • セット1:GPT-4-turbo, GPT-3.5-turbo, LLMA3-8B-Instruct
    • セット2:GPT-4-turbo, GPT-3.5-turbo, Qwen2.5-7B-Instruct
    • セット1は、GPT-3.5とLlama3が出力のLength Biasにより、全体的に性能が低下。
    • セット2は、性能向上。幾つかのバイアスの軽減も見られた。
  • 複数のLLMを採用する時は、各評価性能の違いを考慮する必要がある

LLM-as-a-judgeとO1-like推論の強化

o1は、複雑なタスクを解決するために段階的に思考を行う。
このo1の推論を強化するには、推論時の各段階で評価させることである。
o1が問題に取り組む際、適宜別のLLMが評価し、フィードバックを提供することで、モデルの性能を改善させる。

この過程でReasoning/Thinkingの両方を評価する2つの方法がある。

  • 学習段階で推論プロセスを評価し、フィードバックを与えて強化学習を通じて推論能力を向上させる
  • テスト時にLLM-as-a-Judgeがモデルの出力を評価し、リアルタイムフィードバックを与える

アプリケーションの応用

機械学習

  • 要約、ストーリー作成などテキスト生成タスクは、「唯一」の正解はない。LLM-as-a-judgeによって、人間と同様に評価させることが可能
  • 最近では、LLMによる自律的な議論の中で、生成された応答を評価するマルチエージェント討論フレームワークなどがある
  • 推論:近年はChain-of-Thoughtなどの段階的な推論を行うモデルがあるが、推論経路が正しいのか判断が難しい。LLM-as-a-judgeでこれらを評価する。
  • 検索:従来型のランキング形式の検索と、RAGアプローチの両方でLLMの評価を行う手法がある。
    • ランキング結果をLLMに判定してもらい、検索結果の精度を高める
    • RAGでは、どの外部知識を選択・評価するかをLLMが自己評価で行う仕組みが研究されている

社会的知性

  • 文化的価値観、倫理原則、社会的影響を含む複雑な社会的シナリオをナビゲートする

マルチモーダル

  • テキストや視覚モダリティを超えて機能するLLMベースのシステムを評価するベンチマークが作成されている

その他の特定領域

  • 金融: 金融領域の予測、異常検知、パーソナライズドテキスト生成などのタスクへの可能性
    • 金融におけるマルチタスクのケーススタディを実施し、意思決定を改善するためのシステム (FinCon)
    • ドメイン固有知識の理解を評価し、強化するためのベンチマークの作成
    • 信用スコアリングや、環境・社会・ガバナンススコアリングでも応用例を示している
  • 法律: 法律相談のような専門的分野で助言を提供し、テキスト要約・法的推論のようなタスクに優れている。しかし、他分野に比べるとバイアスや事実の不正確さをより懸念しなくてはならない
    • 法的な用途に特化したLLMの評価者の作成
    • 法的シナリオにおけるLLMの適応性を評価するためのベンチマークの作成
  • 科学: 科学分野、特に医学的な質問応答や数学的推論のような分野で、精度と一貫性を向上させる評価者の役割を果たす可能性
  • その他
    • ソフトウェア工学:バグ報告の要約を評価するためにLLMを利用し、正確性と完全性の評価において高い精度を示し、疲弊した人間者の評価をも凌駕している。
    • 教育:小論文の自動採点と改訂が検討されている。few-shotやプロンプトチューニングによって、採点精度を向上させ、改訂は元の意味を損なうことなく、エッセイの質を効果的に向上させた。
    • コンテンツの修正:Redditのようなプラットフォームのルール違反を特定するためにLLMを利用。高い真陰性率を達成したが、複雑なケースの場合は人間の監視が必要とのこと。
    • 行動科学:ペルソナに基づくユーザーの嗜好を評価するためのフレームワークの作成。ペルソナを単純化しすぎると、信頼性と一貫性に限界があることが分かった。しかし、言語による不確実性推定によって大幅に改善され、不確実性なユースケースの場合、人間の評価と高い一致を達成。
  • サービス品質の評価、ユーザー体験のフィードバック分析、アートや文献レビューのような創造的なコンテンツ評価など、定量化が困難な質的評価において大きな優位性を示す。
  • つまり、従来人間の判断を必要とする主観的な評価タスクに適している。

課題

信頼性

  • 人間とLLMの評価は共に偏りを示しており、評価の一貫性と公平性に懸念
    • 人間には固有のバイアスがあり、信頼できない回答さえある
    • LLMは確率的モデルであることから、位置バイアスなどの偏りがある
  • Overconfidence: Instruct-tuningされたLLMは、自身の応答を評価する際に、過度に好ましいスコアを提供する傾向がある。
  • 公平性と一般性:文脈によっては、同じ入力でもLLM-as-a-judgeの結果に矛盾が生じる。与えるプロンプトによっては、公平性や汎化性を失うこともある。
    • few-shotにおける例の提示位置
    • 長いコンテキストを与えることによる性能低下

ロバスト性

  • LLM-as-a-judgeに対する攻撃の研究は比較的未開拓である。つまりリスクは未知数。
  • 攻撃の目的は「有害・不正確な出力を生成するようにミスリード」すること。
    • 例えば入力の言い回しをかえることで、判断に大きな乖離が生じる可能性がある
    • これによりアプリケーションの信頼性低下が懸念される
  • 応答のフィルタリング、一貫性チェックなど出力に対する後処理が一般的
    • 但し、同じ入力を複数回評価すると、しばしば矛盾した出力を生成したり、スコアリングがランダムになったりする課題も残されている

強力なバックボーンモデル

  • テキストベースは優れた性能を示しているものの、マルチモーダルコンテンツの信頼できる評価器はまだ欠けている

FUTURE WORK


LLM-as-a-Judgeシステムは、幅広い専門領域において、人の判断を支援したり、それらを取って代わったりする可能性を示す。
LLMの高度なデータ処理とパターン認識能力で、複雑なシナリオを評価、査定、裁定するタスクをサポートする。

図16のように、LLMは多様な分野で汎用性の高い評価器として機能する。
(例:医師がLLMを使って、医療記録や画像データを処理することで、状態を診断し、結果を予測することができる)

LLMはスケーラブルで柔軟な評価に優れているが、限界がある。
これらの限界に対処しながら、新たなアプリケーションを模索し、システムの信頼性、公平性、適応性を向上させることに焦点を当てて、社会的価値観や専門的基準との整合性を確保する必要がある。

図15のように、GPT-4の登場により評価手法の開発は大きく進み、フィードバックによってモデルが自分で改善していく自己進化基盤を可能にした。
最終的には信頼性の高いLLM-as-a-Judgeを確立することで、現実世界のシミュレーションをよりリアルかつ広範に信頼できるものにすることが可能になる。
AIはこのアプローチを利用して、自己進化を達成し、AGIのスケーリングを促進出来る可能性がある。

More Reliable LLM-as-a-Judge

適応性やロバスト性など、多くの課題が未解決である。
In-Context Learning, モデル選択、後処理技術、LLM-as-a-Judgeの総合評価フレームワークなど、様々な側面で信頼性を向上させる必要がある。
そのためには、信頼性・ロバスト性を評価するための方法論を開発する必要がある。

また、ロバスト性に関するリスクが不確実かつ進化し続ける性質を持つことから、リスクを未然に防ぐための対策が必要。

  • 判断タスク用の攻撃入力に対応するための学習技術の開発
  • 不確実性定量化手法の統合
  • 重要な意思決定を人間が監督するヒューマンインザ・ループシステムの導入

データアノテーションに対するLLM-as-a-Judge

LLMに「情報源の忠実さ」「正しさ」「有用性」のような指標で評価してもらう時、学習データから学習した意味的関係が評価に依存する。

データアノテーションは、幅広い応用性があるにもかかわらず、データの複雑さ、主観性、多様性のために行うのが大変という大きな課題になっている。
特に大規模なデータセットを手作業でラベルづけする場合、ドメインの専門知識を必要とし、リソースを大量消費する。

GPT-4, Gemini, LLaVAなどはデータアノテーションの有効性と精度を向上させるうえで重要である。

  • アノテーションタスクを自動化する
  • 大量のデータ間の一貫性を確保し、特定のドメインに対するfine-tuningやプロンプトによって適応する能力

研究分野・産業界ともにデータが足りない、質が十分でないという課題がある。LLM-as-a-Judgeを使うことで以下のように対処できる。

  • データ拡張のシナリオでは、LLMを使ってデータを注釈することができる。
  • データ品質が低いシナリオでは、LLMによってデータの品質を評価し、高品質なデータを選択するために品質タグを付与できる

しかし現状は、様々なシナリオのデータの信頼性を高く評価するために、LLMだけに頼ることはできず、人間のアノテーションが必要。

マルチモーダルLLMの判断

GPT-4o, Gemini, LLaVAのようなモデルは、テキスト・音声・画像を処理するための単一のフレームワークに統合している。
現在、モデルを評価するためのMLLM-as-a-Judgeフレームワークが登場しているが、どのようにしてデータやエージェントの評価に適応できるか、探っている段階である。

LLM同様に、データの評価や注釈、報酬モデルとして機能する能力、中間推論プロセス内で検証者として機能することが想定される。
将来的には、テキスト・音声・画像・ビデオにまたがる複雑なコンテンツを推論し、評価出来るロバストなマルチモーダル評価器が必要。
しかし、現状はLLMに比べ、推論性能や信頼性に欠ける。

今後は、推論能力・信頼性の向上、モダリティを超えたシームレスな統合を可能にすることを重点に置く。
マルチモーダルコンテンツモデレーションや自動知識抽出など、新たな可能性が秘められている。

その他

  • LLM-as-a-Judge のベンチマーク増加
  • LLM最適化のためのLLM-as-a-Judge

結論

  • LLM-as-a-JudgeはLLMに基づく評価のパラダイム
    • 人間の専門家や定量的な評価を置き換える手法
  • 信頼性に関する課題に対処する必要がある
    • 評価プロセスでは、一貫性の確保・バイアスの低減・文脈の適応性などの要因を考慮する必要があり、定義されたルールの下で動作し、人間と整合した客観的な結果を提供する必要がある
    • データセットからモデル調整、評価のプロトコル標準化まで、様々な場面で信頼性を確保するための配慮が必要
  • LLM-as-a-Judgeを導入するだけでは、正確で評価ニーズに沿った結果を保証できない
    • 信頼性の高いシステムを構築するには、定義・実践・研究のギャップを対処し、出力を評価・洗練させる体系的な取り組みが必要

Discussion