LLMを説明可能なAIとして活用するためのサーベイ
はじめに
機械学習モデルのブラックボックスという課題
機械学習、とりわけ深層学習は多岐にわたる分野で高い性能を達成している一方で、これらの高度なモデルはブラックボックス[1]という根本的な課題を抱えています。この不透明性は、ミッションクリティカルな領域では容認することが難しく、モデルの予測根拠を解釈し、検証できる能力が求められています。そのための取り組みとして、AIの振る舞いを解釈し、信頼できるようにするための技術 "eXplainable AI"(略してXAI)に関する研究がさまざまな観点で行われています。
かねてから現在[2]にかけて、XAIは、LIME[3]やSHAP[4]に代表されるような、どの入力特徴量が予測にどれだけ寄与したのかを定量的に示すものが主流でした。これらの手法はモデルの挙動を数学的/統計的に反映する一方で、その出力は専門家でなければ解釈が難しかったり、直感的ではないものが多かったです。
LLM による説明可能性
近年の大規模言語モデル(LLM)の台頭が XAI にパラダイムシフトをもたらす可能性があります。それは、LLM が複雑な機械学習モデルからの出力や貢献度スコアを人間が理解しやすいように言葉によって説明するものです。例えば、血圧値のリスクスコアを表示するだけではなく、
コレステロール値の高さや高血圧の家族歴、年齢や体重といった要因を考慮すると、現在の血圧は正常でも将来的な懸念があります。
といった、文脈に沿った具体的な説明を生成するようなイメージです。
また、本記事は複数の論文を参照していますが、主に以下のサーベイ論文に沿って解説します。
LLM によるXAIの3つのアプローチ
LLM によるXAIは Bilal らによると3つに大別されます。
- Post-Hoc Explanations
- Intrinsic Explainability
- Human-Centered Explanations
Post-Hoc Explanations(事後説明)は、機械学習モデルが予測した後に、LLM が予測値やSHAP などの従来の XAI 手法によって算出された貢献度スコアなどを受け取り、理解しやすい文章で説明します。元の機械学習モデルに手を加えずに済むので、適用範囲が広くかつ、直感的なアプローチです。
Intrinsic Explainability(内在的説明可能性)は、機械学習モデルの設計段階から説明可能能力を組み込むアプローチです。すなわち、推論プロセスそのものを説明的にするもので、CoT(Chain-of-Thought)が代表です。モデルから出力される思考過程そのものが人間にとって理解可能な説明そのものとして機能します。
Human-Centered Explanations(人間中心の説明)は、文字通り人間にとってのわかりやすさを重視するもので、AIシステム開発プロセスに、説明したい人(エンドユーザー)を組み込みます。具体的にはインタビューやアンケートなどを使って、エンドユーザーがいつ何をどのように説明して欲しいのかを明らかにしながら開発を進めます。また、生成された説明に対するユーザーの反応(e.g.「この部分がわかりにくい」)をフィードバックすることで、より良い説明を再生成することも含まれます。手法というよりも「開発アプローチ」、「考え方」、みたいな感じですね。
以後、1節ずつ使って3つのアプローチを詳説していきます。
Post-Hoc Explanations(事後説明)
事後説明はさらに2つのタイプ(Global Explanations と Local Explanations)に分類されます。
グローバルな説明は、機械学習モデルがどのような傾向を持っているかを大局的に理解するものです。例えばメールのスパム判定モデルにおいて、そのモデルが「無料(free)」「当選(winner)」「ここをクリック(click here)」といった特定のキーワードや、過剰な感嘆符、多数のリンクといったパターンを持つメールを、データ全体を通じて迷惑メールと判断する傾向があることを示すようなイメージです。データセット全体にわたって各特徴の貢献度(SHAP など)を集計することで、モデル全体の傾向を明らかにします。
ローカルな説明は、個々の予測に焦点を当てて、何故その予測を出力したかを説明するものです。同じくメールのスパム判定の例では、具体的なあるメールについて、賞金を進呈します(claim your prize)」や「おめでとう(congratulations)」といった具体的なフレーズや、ハイパーリンクの多さが決定的な要因であったことを指摘するイメージです(Integrated Gradients などが使えます)。
ここからは私の解釈ですが、いずれも従来からある機械学習を解釈する手法に登場するような内容であり、これらをLLMによって自然言語に「翻訳」しているに過ぎません。故にこの手法には限界があり、従来手法によるXAIの解釈部分をLLMが代替させるアプローチと私は捉えています。ポジティブなことを1つだけ申し上げると、世に溢れるBIダッシュボード[5]上で SHAP 値などを表示するのも良いですが、これらの値を確認する非DS職向けの説明として LLM を用いるのは有効かもしれません。
Intrinsic Explainability(内在的説明可能性)
内在的説明可能性は、先の事後説明と対照的で、モデルの構造自体が解釈可能性を持っているものです。イメージとしては Attention 機構において、その重みそのものが説明性を持っているように、モデル自体が内在的に説明能力を持つものです[6]。
LLM で内在的説明性を持たせるには CoT を使うことになります。例えば、患者の状態を予測するタスクにおいて、CoT は意思決定プロセスを、
- 症状を特定する
- 考えられる診断を評価する
- 症状と診断の関係を分析する
といった連続的なステップに分割するので、AIモデル全体の推論を解釈しやすくなります。
このアプローチで生成された説明の信頼性を高めるためには、事実の正確性と論理的な正確性の2つが重要です。それぞれ例えば、モデルの入力に基づいて出力しているか、偽相関に基づいた推論を行っていないかを self-reflection(内省)することに対応します。
Human-Centered Explanations(人間中心の説明)
先の2つの例では、事実に基づいた説明を生成することを目指していますが、その説明がエンドユーザーにとって分かりやすいものであるかどうかは別の問題です。人間中心の説明では、AIシステム開発者が、エンドユーザーにとってわかりやすい説明を作成するためのガイドライン的な立ち位置です。
LLM の持つ自然言語生成能力を使って、物語ベースの説明を生成することを説明しています。その際の観点として反事実を用いてイメージしやすくすること、エンドユーザーにヒアリングして重要な情報を引き出し、プロンプト作りなどに活かすこと、を挙げています。
反事実の活用
反事実(counter-factual)は統計的因果推論の文脈で登場する語彙ですが、「もしこうだったら予測はどのように変わっていたか?」を LLM に回答させるイメージです。
例えば、あるモデルが個人の社会的信用スコアを「低い」と予測した場合、「もし収入がもっと高ければ、あるいは負債がもっと少なければ、予測はどのように変わっていたか?」といったプロンプトを LLM に与えます。これにより、単に予測結果だけでなく、「どうすればより良い結果になったか」という具体的な示唆を含む、人間にとってより有益な説明が生成されます。
エンドユーザーからのFB活用
至極当然の話ですが[7]、実際にシステムを使う人に、LLM の出力を見てもらって、意見をいただき、プロンプトの調整をしましょう、と言っています。
LLM による説明性の評価
言わずもがなですが、説明性の評価はめちゃくちゃ難しいです。そもそも何が良い説明変わりませんし、言語の評価になるので定量的に評価することも困難です。そんな中で、評価方法は定性的なものと定量的なものがあります。論文の Table 2 に整理されていますので、和訳して転載します。
カテゴリー | 指標 | 説明 | 具体例 |
---|---|---|---|
定性 |
理解可能性と人間による理解 Brian Y. Lim ら, Kacper Sokol ら |
モデルの推論を人間に対して伝える際の、説明の理解のしやすさと明瞭さ。 | 感情分析において、「見事な演出」や「革新的なストーリーテリング」といった重要なフレーズを強調して説明する。 |
定性 |
制御可能性 Lang Cao, Shuyu Guo ら |
説明の対話性と調整可能性。ユーザーがフィードバックを提供し、説明を洗練させることができる。 | ユーザーが説明の不明瞭な部分を指摘し、改善を求めることができる。 |
定量 |
忠実性 Huilian Fu |
モデルの内部的な意思決定プロセスをどれだけ正確に表現しているか。因果関係や訓練データとの整合性を含む。 | 医療診断システムが、決定に影響を与えた特定の患者の特徴とその重み付け(寄与度)を示す。 |
定量 |
もっともらしさ Alon Jacovi ら,Meike Nauta ら |
論理的な一貫性と専門領域の知識との整合性。確立された知識と一致していることを保証する。 | 気候予測モデルが、気象学の原則に沿った説明を提供する。 |
人間にとってわかりやすく感じる説明が、必ずしもモデルの理論を正確に反映しているとは限らないという指摘があります。例えば欠陥のあるデータで学習されたモデルが誤った関係性に基づいているにも関わらず、最もらしい説明を生成してしまう可能性もあります。それ故に定量評価も重要になります。
さらに定量評価においては、忠実性ともっともらしさが挙げられていますが、これらは独立に区別する必要があります。(もっともらしくても)、モデルの内部的推論を反映していない(忠実ではない)場合があるからです。例えば、あるモデルが画像から猫を検出した場合、「髭と尻尾を検出したため」というもっともらしい説明を生成するかもしれませんが、モデルの実際の判断根拠は質感パターンであった、ということが起こりうります。両方の観点から評価することが重要です。
応用事例
マラリアと腸チフス診断の解釈可能性の向上
マラリアや腸チフスの罹患時の死亡率を下げるには、迅速かつ正確な診断が不可欠ですが、類似した症状が存在するため、これらの病気をシンプルな問診で分類することは難しいです。専用の機械学習モデルを構築することである程度正確な予測は実現できるようですが、解釈不可能な「ブラックボックス」では、医療従事者が機械学習モデルの出力をそのまま鵜呑みにするわけにはまいりません。そんな背景から、この取り組みでは LIME と LLM を組み合わせて、どの症状がモデルの決定に最も影響を与えたかを説明しできるシステムを構築しました。
LIMEとその説明によるシステムの出力例。Enhancing the Interpretability of Malaria and Typhoid Diagnosis with Explainable AI and Large Language Models Figure 19 より引用。
この取り組みはモデルの出力と従来の定量的な寄与率を LLM で事後的に説明させるので、post-hoc-explanations に相当します。
原子力発電所における故障診断の説明可能性向上
原子力発電所のような複雑でかつミッションクリティカルなシステム運用においては、異常検知だけではなく、その結果をオペレーターが理解して信頼できるようにすることが重要です(説明可能性の重要性)。しかし、「説明可能性」には普遍的な定義は存在しないため、オペレーターがシステムの診断結果に対して質問を投げかけ、それに回答できることを以て「説明可能性」と定義しました。実際に 溶融ナトリウム施設で故障したセンサーを診断する能力が検証されました。
この取り組みでは、以下のシステム構成がとられています。
- プラント: センサーで監視される物理的なシステム。
- PRO-AID: 物理法則に基づいたモデルを使用し、センサーデータとモデルの予測の差(矛盾)を検出し、故障診断するツール。
- シンボリックエンジン: プラントの知識ベース。LLMがプラントやPRO-AIDのデータを照会するために利用。
- 診断エージェント: LLM を組み込んだシステム。
PRO-AID
からコンテキストとして情報を受け取り、オペレーターからの質問に回答する。必要に応じてシンボリックエンジン
からも情報を紹介する。
結果としてはオペレーターからの質問に対して、センサーデータを分析しながら論理的に回答できることが実証されました。
結び
そもそも良い説明のあるAIとはなんでしょうか。入力に対してどのような処理がなされた結果その出力が得られたのかをトレースできることでしょうか? 決定木を見れば入力から出力までの過程はなぞれますが、決定木自体はデータから作られるものなので、何故そんな決定木になっているかは不明です。予測が外れた時に、「この入力が大きかったから決定木でこっちに分岐したからです」と説明されて、納得してもらえる場面は限られていると思います。入力の何が効いてその判断になったかがわかることでしょうか? 一番効いている特徴はわかるかもしれませんが、それが論理的に説明のつくものであるとも限りませんし、そもそも人間が解釈しやすいように少ない次元で表しただけの近似にしかすぎません。突き詰めると人間が判断しようがAIが判断しようが、完全な説明性など存在しないのです。では説明することを諦めるのかというと、そうではありません。
執筆を終えて感じたことは、技術的な内容というよりも、アプローチ的な話が中心な記事になったということです。DS職としては SHAP のような定量的な説明量を計算できることも重要ですが、そんなものは生成AIに指示したり、Web を調べればいくらでもやり方は出てきます。そんな2025年現在、DS職としてバリューを出す方向性の1つに、エンドユーザーとの対話を通じて、何をどんな風に提供すればAIに説明性がある状態となるのかを突き詰めていくことがあると思っています。これはケースバイケースであり、明確な答えがあるわけではありませんが、方法論、考え方にはガイドライン的なものがあるはずで、本記事がその一端を担えれば嬉しく思います。
参考文献
- LLMs for Explainable AI: A Comprehensive Survey, Ahsan Bilal, et al., 2025.
- "Why Should I Trust You?": Explaining the Predictions of Any Classifier, Marco Tulio Ribeiro, et al., 2016.
- Explaining Machine Learning Explainers: A Human-Centric Perspective, Kacper Sokol, et al., 2024.
- Learn to Refuse: Making Large Language Models More Controllable and Reliable through Knowledge Scope Limitation and Refusal Mechanism, Lang Cao, 2023.
-
Towards Explainable Conversational Recommender Systems
, Shuyu Guo, et al., 2023. - A Survey of Explainable AI through the Lens of Faithfulness, Huilian Fu, et al., 2023.
- Towards Faithfully Interpretable NLP Systems: How should we define and evaluate faithfulness?, Alon Jacovi and Yoav Goldberg, 2020.
- From Anecdotal Evidence to Quantitative Evaluation Methods: A Systematic Review of Evaluation Methods for XAI, Meike Nauta, et al., 2022.
- Enhancing the Interpretability of Malaria and Typhoid Diagnosis with Explainable AI and Large Language Models, Kingsley Attai, et al., 2024.
-
Integrating LLMs for Explainable Fault Diagnosis in Complex Systems
, Akshay J. Dave, et al., 2024. - XAIRF-WFP: a novel XAI-based random forest classifier for advanced email spam detection, Mohamed Aly Bouke, et al., 2024.
- Chain-of-Thought Prompting Elicits Reasoning in Large Language Models, Jason Wei, et al., 2023.
- Tell Me a Story! Narrative-Driven XAI with Large Language Models, David Martens, et al., 2024.
- Framework for LLM Applications in Manufacturing, Zihan Wang, et al., 2024.
-
AIの出力の根拠が分からないことです。中身がどうなっているか分からない状態をブラックボックスと表現します。 ↩︎
-
本記事執筆時点の2025年9月現在。 ↩︎
-
Local Interpretable Model-agnostic Explanations. ↩︎
-
SHapley Additive exPlanation. ↩︎
-
Business Intelligence. 様々なデータを収集、分析し、画面上に可視化することで業務の評価や改善、意思決定をサポートするツールです。Tableau、Amazon QuickSight、Looker Studio、Microsoft Power BI 等が有名どころです。 ↩︎
-
論文中に紹介はなかったですが、決定木もそれに該当するものと思います。 ↩︎
-
当然と思いながら、論文中に紹介されているので記事でも紹介しました。もちろん重要な話なので書く価値はあるはずです。 ↩︎
Discussion