LLMの出力の信頼性向上に関する研究の紹介 ②LLMの確信度とユーザーの信頼度の乖離に関する研究
はじめに
本シリーズではLLMの出力の信頼性向上に向けた最新の取り組みを紹介しています。前回はLLMの長文出力の事実性を自動評価するための新しい手法SAFEを紹介しました。今回はLLMの確信度とユーザーの信頼度の乖離を研究した論文“The Calibration Gap between Model and Human Confidence in Large Language Models”を紐解いていきます。
LLMの確信度とユーザーの信頼度の乖離
カリフォルニア大学アーバインの研究者らによる論文 “The Calibration Gap between Model and Human Confidence in Large Language Models” では、LLMが自分自身の出力にあまり自信がない場合であっても、人間はその出力を信頼してしまう傾向にあることを明らかにし、またこの問題を解消するアイデアを提示しています。
Kadavathらの研究などでLLMが自己認識を反映する内部的なメカニズムを持つことが示唆されており、本研究ではこのメカニズムを活用したアプローチを導入しています。質問セットに対する回答をLLMに出力させる際に、通常の出力パターンに加えて、回答に対する確信度を含む内容を出力させるパターンも用意し、両者に対する人間の受け止め方を比較しています。
検証では択一式の質問に対してLLMが回答の選択肢と説明を出力し人間がLLMの出力の信頼度を評価しています。(図1)
図1 https://arxiv.org/abs/2403.18802
本検証では、LLMに対して選択肢を選択する前にそれぞれの選択肢に対する確信度を出力させている点に特徴があります。図1の例では内部的な確信度ではCは突出していないのに対し、受け取る人間は95%の信頼度を示しており、LLMの内部的な確信度と人間の受け止め方に乖離があることがわかります。
著者らの実験では、通常の説明を出力した場合と内部的な確信度を反映させた説明を出力した場合を比較しており、結果は図2に示す通りとなりました。
図2 引用論文より一部改変 (https://arxiv.org/pdf/2401.13835)
図2では、ECE(Expected Calibration Error)を測定しています。ECEは、分類問題において、モデルの確信度(モデルが自分自身の回答それぞれについて何%で正解すると思っているか)と実際の正解率との間の一致を測定します。例えば、モデル(今回は人間も同様)が「70%の確信を持ってこの回答が正しい」と予測した場合、実際の正解率も70%であることが理想です。ECEの値は、0に近いほど確信度と実際の正解率の差が小さく、良い結果であることを示します。
図2の結果を見ると、説明に特に工夫をしていない場合(Baseline Explanations)と比較して、内部的な確信度を反映した説明を出力した場合(Modified Explanations)によりECEが小さくなる、つまり、人間がLLMの出力がどの程度信頼できるかをより正確に判断できるようになったことがわかります。
また、Baseline Explanationsを用いた場合に人間がLLMの回答に対して過剰に高い信頼を示してしまう傾向も見て取ることができます。この点について、多様なビジネスでLLMによる情報が意思決定に影響を与えるようになってきている中、人間がLLMのレスポンスを過剰に信頼してしまうことが大きなリスクになり得るとも指摘されています。そうしたリスクを軽減しLLMをより信頼できる形で活用するために、本研究で実施されたようなモデルの確信度と人間の信頼度の乖離を埋めるようなアプローチが有用となるでしょう。
おわりに
本シリーズではLLMの出力の信頼性向上に関する研究として二本の論文を紹介しました。日々の業務でもLLMを利用する場面が増えてきていますが、紹介したようなアプローチは出力の信頼性を担保するのに活用できるのではないかと考えています。
参考
- 『The Calibration Gap between Model and Human Confidence in Large Language Models』https://arxiv.org/pdf/2401.13835
Discussion