📊

マルチターン対話エージェントの評価手法

に公開

こんにちは。ZENKIGENデータサイエンスチームの川﨑です。所属チームでXアカウントを運用しており、AIに関する情報を発信していますのでご興味あれば覗いてみてください。

近年LLMは目覚ましい進化を遂げ、それに伴い対話エージェントの能力も飛躍的に向上しています。歴史を辿ると、初期のELIZAのようなルールベースのシステムから、統計的手法、そしてディープラーニングを経て、LLMベースのエージェントへと変遷し、現在は人間のような自然な対話を実現しつつあると感じます。

一方で、エージェントの性能向上に伴い複雑なタスクをこなせるようになったことで、その性能を評価することも難しくなっています。そこで今回は性能評価の一環として、マルチターンの対話能力に関する評価手法を調査したサーベイ論文を紹介します。

論文は以下になります。
https://arxiv.org/abs/2503.22458

評価の分類方法


図1. マルチターン会話エージェントを評価する手法を分類した図。Evaluating LLM-based Agents for Multi-Turn Conversations: A Surveyより引用。

対話エージェントの評価手法を整理しやすくするため、本論文では評価を「何を」と「どうやって」の2次元に分けて分類しています。

  1. 何を評価するか (What to Evaluate):タスク完遂能力、応答品質、ユーザー体験、記憶力、計画力、ツール利用、安全性など
  2. どのように評価するか (How to Evaluate):人手評価、自動評価メトリクス、ハイブリッド手法、LLMによる自己評価、評価データセット、ベンチマークなど

「何を」評価するべきか?

論文内では、評価すべき側面を4つに分類しています。それぞれについて、ポイントをまとめます。

2.1 エンドツーエンド体験の評価

ユーザーがエージェントとの対話全体を通して得る体験の質を評価します。
最も重要な観点として、タスク完了率が上げられます。これは事前に定義された目標を達成しているかを評価するもので、雑談など、タスクによってはユーザーの満足度などの主観や質に近い評価も含まれます。また、論文内ではシステムの故障など広義のエラーを含む評価が必要となるものの、ここまで踏み込んだ分析に関する論文は上げられていませんでした。

ツール利用の評価

エージェントが外部APIやツール(Web検索、計算機、データベースなど)を適切に利用してタスクを実行する能力を評価します。
基本的な評価として、タスクに対して適切なツールを選択できているかが挙げられます。また、タスクによっては複数のツールを段階に分けて適切に選択する必要があり、そういったより複雑なシナリオを考慮した評価も必要となります。

記憶能力の評価

過去の対話履歴やユーザー情報を保持し、活用する能力を評価します。エージェントの記憶能力が低い場合、回答の一貫性の低下や複雑なタスク遂行が難しくなるため、重要な観点です。
観点としては、まずメモリスパンの大きさが上げられます。直近の会話内容のような短期記憶から、数十ターンに及ぶ会話記憶、さらに複数セッションにまたがる対話履歴を含む長期記憶が扱えているかに分けて整理されています。
続いて、メモリの形態については、大まかにテキスト形式とパラメトリック形式に分けて説明されています。パラメトリック形式では、メモリ情報がモデルパラメータ内に埋め込まれているため、明示的に評価するというよりはメモリの特定の知識を編集できるか、といった間接的なアプローチで評価する方法が例として上げられていました。

プランニングの評価

複雑なユーザー要求を達成するために、タスクを分解し、実行計画を立て、遂行する能力を評価します。

観点としては、以下の点に分けて整理されています。

  1. タスクモデリング:ユーザーの要求を正しく理解し、エージェントが実行する必要がある行動を明確に定義できているか。
  2. タスク分解:設定したタスクを実行可能なサブタスクに分解できているか。適切に分解することによって、全体のタスク成功率がより高くなると考えられます。
  3. 適応・制御:対話の中で新たな情報が得られた際に、計画や応答の修正を行うことができるか。
  4. プラン検証・選択:生成した計画が実行可能かを、制約条件などと照らし合わせて評価できているか。

この節には、上記の観点に対処するための様々な手法もまとめられているため、プランニングに関する課題を解決したい場合に参照するのも良さそうです。

評価の方法:「どのように」評価するべきか?

評価データ

評価の基盤となるデータセットの作成方法です。こちらは、大まかに会話データ生成とアノテーションの2つに分けて整理されています。
会話データ生成の観点では、既存の対話履歴を元に次ターンの応答を生成したり、ツール利用のシミュレーションデータの作成、ユーザー入力に適切に適応できているかなどの広範なシナリオに対応するためのデータ作成に関する研究が紹介されています。「何を」評価するべきかの節で上げたシナリオに対応するデータ作成に対応しているように感じました。
アノテーションの観点では、応答に対してラベル付けをして人手で評価する以外にも、コンテキストを保持できているか、既存の会話データでは意図が曖昧で評価に適切ではない、といった場合により精緻な評価を行うため、データを人手で作るなどの研究も紹介されていました。

評価指標

生成された応答や行動を定量的に評価するための指標です。上記の分類に類似し、アノテーションベースとアノテーションフリーの2つに分けて整理されています。
従来のBLEUやROUGEなどの指標は、表層的な評価に留まり、対話の流れや意味を深く捉えられません。そのため、対話専用の指標や、意味的類似度に基づく指標などが提案されています。
アノテーションは、基準や観点を細かく設計し評価することで精緻な評価を行うことができます。一方で、スケーリングすることが難しい点や、評価者個々のバイアスが評価に影響を及ぼす点などが課題としてあります。アノテーションフリーの手法では、モデルによるスコアリングや、LLM自身を評価者として利用するLLM-as-a-Judgeなどが紹介されています。評価の方法としては、点数を採点するポイントワイズ模ですが、ペアワイズ、リストワイズなどの回答間の相対的な比較を行う手法の開発が活発に行われているようです。LLMの性能向上とともに今後重要性が増していくと考えられますが、当然LLMにもバイアスが内在するため、評価の妥当性を別途検討する必要があります。

考察と今後の展望


図2. マルチターン会話エージェントを評価する手法の変遷。Evaluating LLM-based Agents for Multi-Turn Conversations: A Surveyより引用。

マルチターン対話エージェントの評価は、ルールベースの単純な指標から、LLMの多面的な能力を捉えようとする複雑な評価へと進化してきました。評価の方法、でも記載したように、言語モデルが進化するとともに、評価にも言語モデルが活用され、より複雑な評価を自動化することが可能となっています。

一方で現行の評価手法には、以下のような課題が存在しています。

  • シングルターンレベルの評価が多い:現状の研究ではシングルターンの評価が多く、マルチターン間の相互作用を適切に扱う評価が不足しています。一方で、会話全体の評価はユーザー満足度やチューリングテストのようなシンプルな評価にとどまり、両者を統合した適応的な評価フレームワークの研究が必要となります。
  • メモリスパン間の一貫性を考慮できていない:現状の多くのベンチマークでは、データ内で短期記憶と長期記憶を適切に区別して扱えておらず、結果としてコンテキスト情報がリークしてしまったりといった問題が発生しています。
  • 推論時の自己評価を行えていない:LLMは、自身の出力品質を評価することなく出力を生成しています。LLMは誤った情報を生成しているときにその内容を即時修正する機構がないため、応答内容を評価し動的に修正できるメカニズムが望ましいです。が、個人的には昨今の推論モデルが、出力前に内容の評価を行う機構を取り入れつつあるのかなと思いました。

まとめ

今回は、LLMを用いたマルチターン対話エージェントの評価手法に関するサーベイ論文を紹介しました。
対話エージェントがますます高度化・複雑化する中で、その性能を正しく評価することは、活用のために不可欠です。評価手法自体もまだ発展途上であり、多くの課題がありますが、この分野の動向を追う上で、参考になる論文と感じました。

お知らせ

少しでも弊社にご興味を持っていただけた方は、お気軽にご連絡頂けますと幸いです。まずはカジュアルにお話を、という形でも、副業を検討したいという形でも歓迎しています。
https://hrmos.co/pages/zenkigen/jobs?jobType=FULL
https://speakerdeck.com/zenkigenforrecruit/detailed-version-recruitment-materials-for-data-scientists

ZENKIGENテックブログ

Discussion