🦺

LLMの出力の信頼性向上に関する研究の紹介 ①SAFE - 事実性評価の自動化

2024/07/31に公開

はじめに

気が付くとすっかり我々の日常や業務に普及したLLMですが、ときに事実と異なる内容や論理的に矛盾する内容を出力することもあり、頭を悩ませることがあります。ビジネス上の重要な意思決定の根拠として使うには不安が残ると感じる読者の方もおられるでしょう。

そこで、今回はLLMの出力の信頼性向上に向けた最新の取り組みとして、2回にわたり興味深い論文を紹介します。これらの研究は、LLMの応答の正確性を担保しつつ、ユーザーがその信頼性を適切に判断できるようにするための方法論を提案しています。

SAFE - 事実性評価の自動化

今回の記事で紹介する論文はGoogle DeepMindとスタンフォード大学、イリノイ大学アーバナ・シャンペーン校による共同研究 LONG-FORM FACTUALITY IN LARGE LANGUAGE MODELS です。本研究では、LLMの長文出力の事実性を自動評価するための新しい手法SAFE (Search-Augmented Factuality Evaluator) を提案しています。

SAFE以前にも、言語モデルの応答を評価するモデルとしてはSellamらによるBLEURT、Minらによる FActScoreといったモデルが提案されてきましたが、いずれも長文形式のレスポンスに対する評価には適さないという課題がありました。SAFEではLLMエージェントを活用したレスポンスの分析とGoogle検索による事実確認を組み合わせることで評価精度の向上を図っています。

図1 (https://arxiv.org/pdf/2403.18802)

SAFEは図1に示されるプロセスでLLMの応答の事実性を評価します。図1では、最初に “What is the Eiffel Tower?” という入力によって以下の出力を得ています。
“The Eiffel Tower is a tower in Paris. It opened in the 20th century. The Nile River is in Egypt.”

次に、このReponseの事実性を以下のプロセスで評価しています。

  1. LLMからのResponseを小さな情報に分割する
    a. これにより、応答に含まれる各事実を別々に評価することができます。(例: エッフェル塔はパリにあります。)
  2. 代名詞等を置き換えることにより、文章中で情報を完結させる
    a. 分割した各文が自己完結しているかを確認し、関係代名詞のように他の情報を参照するような表現を解消します。
  3. ユーザーのプロンプトに対して必要な情報だけに絞り込む
  4. 情報それぞれについてGoogle検索し、検索結果から事実性を評価

えええ評価の結果をもとに、Outputとして、支持される情報の数、支持されない情報の数、無関係な情報の数をそれぞれ出力しています。

ステップ4で行う事実性の評価は図2のような流れで実施されています。「エルサ・パタキーは多大なる貢献をした。」という文に対する事実性の評価では、3つの検索結果から推論を行っていることがわかります。SAFEによるクエリの生成によりエルサ・パタキーの貢献を多角的に調査できていることがわかります。


図2 (https://arxiv.org/pdf/2403.18802)

評価対象のレスポンスに含まれる個々の事実は “supported”, “not supported”, “irrelevant”のいずれかに分類され、これらの比率を用いてレスポンスの最終的な正確性を評価しています。

著者らの検証によれば、SAFEは比較のために雇われた人間の評価者よりも高い精度で事実性を判定できコストも20分の1に抑えられたとのことです。また、著者らは特に言語モデルをエージェントとして振る舞わせ、複数ステップに及ぶGoogle検索と注意深く推論をさせた点にSAFEの革新性があると述べています。

参考

Dynagon Tech Blog

Discussion