🔍
機械学習における解釈可能性 (Interpretability) と説明可能性 (Explainability) のニュアンスの違い
混同して用いられる2つの概念だが、厳密には以下のようなニュアンスの違いがある(と個人的に思っている)。何か意見等あればコメントください!
解釈可能性 (Interpretability)
(しばしばブラックボックスである)機械学習モデルに対して、そのモデルが予測を返す仕組み(そのもの) を明らかにできること。
説明可能性 (Explainability)
機械学習モデルの予測に対して、なぜその予測を返したのか説明できること。
解釈可能性が高いからといって、説明可能性が高いとは限らない
線形回帰や決定木のような解釈可能性の高い手法では、モデルの予測に寄与するメカニズムである"特徴量"を計算することができる。しかしながら、特徴量の大きな変数を複数持つ入力をモデルに入れた場合に、どうして予測に至ったのか(結局どの変数が一番効いたのか)は説明できない。同様に、どの変数がどのくらい大きいと予測が変わるのかなどの基準も説明できない。
説明可能性が高いからといって、解釈可能性が高いとは限らない
近年のニューラルネットワークの研究においては、予測と一緒に、その予測に至った理由をテキストなどで出力させるモデルが提案されている。こうしたモデルを使えば、任意の入力に対してその予測に至った理由が説明されるので、説明可能性が高い。しかしながら、なぜその理由が出力されたのかという仕組みそのものはブラックボックスになっているため、解釈可能性が低い。
Discussion