💨

[論文] G-EVAL: NLG Evaluation using GPT-4 with Better Human Alignment

2023/08/22に公開

Summary

  • NLG出力をLLMを用いて評価するフレームワークを提案した
  • 提案手法では特にCoT(Chain of Thought)を用いたフレームワーク、スコア算出方法を工夫している
  • 要約タスク・対話生成タスクにおける、人手の評価との相関において、提案手法では既存手法のパフォーマンスを大きく上回った

背景

伝統的な評価指標(e.g. BLEU, ROUGE)だと次の問題がある

  • 人間による評価との相関が比較的弱い
  • 人間が正解を用意する必要があり、コストが高い

最近の研究では、NLG評価器としてLLMを直接使用することが提案されている。しかし

  • LLMをNLG評価器として使用することの妥当性と信頼性は、体系的に調査されていない
  • 一部の評価タスクでは、LLMベースの評価器は、中規模のニューラル評価器よりも人間の対応度が低いことが示されている。したがって、LLMをNLG評価に用いるための、より効果的で信頼性の高いフレームワークが必要。

提案手法

G-EVAL はプロンプトベースの評価ツールであり、3つの主要なコンポーネントを持つ:

  1. プロンプト
  • 評価タスクの定義と評価基準のプロンプト
  • 下図のTask Introduction & Evaluation Criteria
[例]評価タスクを定義するプロンプト

You will be given one summary written for a news article. Your task is to rate the summary on one metric. Please make sure you read and understand these instructions carefully. Please keep this document open while reviewing, and refer to it as needed.

[例]評価基準を定義するプロンプト

Coherence (1-5) - the collective quality of all sentences. We align this dimension with the DUC quality question of structure and coherence whereby ”the summary should be well-structured and well-organized. The summary should not just be a heap of related information, but should build from sentence to sentence to a coherent body of information about
a topic."

  1. CoT
  • 詳細な評価ステップを記述する。LLMによって生成される中間命令セット。
  • 下図のEvaluation Steps
[例] LLMによって生成されたCoT
  1. Read the news article carefully and identify the main topic and key points.
  2. Read the summary and compare it to the news article. Check if the summary
    covers the main topic and key points of the news article, and if it presents them in a clear and logical order.
  3. Assign a score for coherence on a scale of 1 to 5, where 1 is the lowest and 5 is the highest based on the Evaluation Criteria.
  1. スコアリング関数
  • LLMが出力したトークンの確率に基づいてスコアを計算する。
  • ダイレクトに1-5のスコアを付けて、という命令にすると、普通は1-5の整数値が返ってくる。そうするとスコアの分散が小さくなり、文章間の微妙な違いを捉えられない。その課題に対処するため。
  • 下図の右下

実験設定

モデル

  • GPT3.5(text-davinci-003)
  • GPT4
    を使う。ただし、GPT4ではトークン確率が得られないので20回サンプリングしてトークン確率を推定した。

ベンチマーク

  • SummEval
    • fluency, coherence, consistency, relevanceの4つの観点において人がアノテーションした文章要約データセットを用いて、いくつかの手法をいくつかの評価指標で評価したベンチマーク。
  • Topical-Chat
    • 知識ベースの人間と人間の会話データセット。 これに含まれる、naturalness, coherence,
      engagingness, groundednessの4つの観点において人がアノテーションした評価値を含むデータセットを使う。
  • QAGS
    • 文章要約タスクにおいて、ハルシネーションを評価するために使う。

ベースラインとなる評価指標

  • BERTScore
  • MoverScore
  • BARTScore
  • FactCC
  • QAGS
  • USR
  • UniEval
  • GPTScore

結果

Results for Summarization(SummEval)

  • 1段目(ROUGE-1, ROUGE-2, ROUGE-L)はモデルのアウトプットと参照(正解)文章の意味的な類似性を比較する評価指標たちの結果で、パフォーマンスが低い。
  • 2段目(BERTScore, MOVERScore, BARTScore, UniEval)はニューラルネットワークによって人手によるレーティングから学習する機構の評価指標たちで、1段目の類似のベースの評価指標よりもパフォーマンスが良い。
  • 3段目(GPTScore, G-EVAL-3.5, G-EVAL-4)はGPTベースの評価指標で、提案手法は最もパフォーマンスが高い。G-EVAL-4の方がG-EVAL-3.5よりもパフォーマンスが高い。
  • CoTを入れた場合の方が、入れなかった場合よりも特にfluencyにおいて性能が高い。このことから、以下が考えられる。
    • CoTによって、より多くのコンテキストとガイダンスを評価のためにLLMに与えることができる
    • CoTによって、評価過程と結果を説明する手助けとなっている
  • スコアの正規化を入れた場合の方が、入れなかった場合よりもSpearmanの相関係数が高い。Kendall-Tauの相関係数は低い。Kendall-Tauの相関係数が低いのはその相関の計算方法によるもので、評価の真の能力を表していないと考えている。

Results for Dialogue Generation(Topical-Chat)

  • 1段目(ROUGE-L, BLEU-4, METEOR, BERTScore)はengaging, groundedの観点では人手の評価に近いが、他の2つの観点ではそうではない。
  • 2段目(USR, UniEval)を見ると、UniEvalがG-EVALを除いてすべての観点で最も良い。
  • 3段目(G-EVAL-3.5, G-EVAL-4)は提案手法で、大幅に上記の評価指標のパフォーマンスを超えた。

Results on Hallucinations(QAGS)


※CNN, XSUMはそれぞれデータセット名

  • 平均して、G-EVAL-4は全ての評価指標のパフォーマンスを上回った。
  • G-EVAL-3.5はパフォーマンスが振るわなかった。このことからconsistencyの観点においては、LLMのキャパシティにセンシティブであることが分かる。

分析

G-EVALはLLMのアウトプットを好むのか?

LLMを評価機として用いることの懸念は、LLMのアウトプットを質の高い人間の文章より好む(高く評価する)ことである。これを調べるために追加実験をした。

新たな要約データセットに対して以下の3つにグループ分けした。それぞれをG-EVAL-4で評価し、平均スコアを比較した。

  1. 人の評価が、「人の書いた要約>GPT-3.5の要約」であったグループ
  2. 人の評価が、「人の書いた要約<GPT-3.5の要約」であったグループ
  3. 人の評価が、「人の書いた要約=GPT-3.5の要約」であったグループ

結果は以下

全てのグループにおいて、G-EVAL-4は、GPT-3.5の要約に人の書いた要約よりも高いスコアを付けた。

この結果に対して、2つの理由が考えられる

  • そもそも人手の評価が正確ではない。実際人間が書いた要約とLLMが作成した要約の判定における注釈者間の一致度は非常に低い。
  • G-EVALはLLMの生成結果に対してバイアスがあるかもしれない。なぜなら、モデルは生成・評価のときに評価基準の概念を共有できるから。

Discussion