機械学習モデルと結果を解釈する (LIME: Local Interpretable Model-agnostic Ex
Abstract: 機械学習モデルと結果を解釈するための手法
1. どの特徴量が重要か: モデルが重要視している要因がわかる
- feature importance
2. 各特徴量が予測にどう影響するか: 特徴量を変化させたときの予測から傾向を掴む
- partial dependence
- permutation importance
3. 予測結果が出たときの特徴量の寄与: 近似したモデルを作り、各特徴の寄与を算出
- LIME(Local Interpretable Model-agnostic Explainations)
- SHAP(SHapley Additive exPlanations)
Introduction: 機械学習の解釈性の重要が高まっている
現状、高精度を叩き出した機械学習は、ブラックボックスになりがちで根拠の説明を人間に提示しない
例えば、近い将来、お医者さんが機械学習モデルから導いたモデルから診断する時代になったとき
お医者さん「あなたは糖尿病に今後5年以内になりますよ。」
患者さん「どうしてわかったんですか? 何が原因なんですか!?」
お医者さん「...。 AIがそう判断したからですよ...。」
患者さん「納得できません!」
と、なってしまう。
機械学習モデルが予測結果に対して、なぜその予測をしたのかという説明が必要。
Environment:
実験環境
Python==3.6.8
matplotlib==3.0.3
jupyter notebook
import re
import sklearn
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import matplotlib
%matplotlib inline
import warnings
warnings.filterwarnings('ignore')
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = 'all'
%reload_ext autoreload
%autoreload 2
データ
Kaggleのtitanicを使用。
適度なデータ数、カーディナリティの少なさ、解釈しやすさ、皆に認識されてる3点から採用。
Titanic: Machine Learning from Disaster
このコンペは、タイタニック号に乗船した、各乗客の購入したチケットのクラス(Pclass1, 2, 3の順で高いクラス)や、料金(Fare)、年齢(Age)、性別(Sex)、出港地(Embarked)、部屋番号(Cabin)、チケット番号(Tichket)、乗船していた兄弟または配偶者の数(SibSp)、乗船していた親または子供の数(Parch)など情報があり、そこからタイタニック号が氷山に衝突し沈没した際生存したかどうか(Survived)を予測する。
PassengerId – 乗客識別ユニークID
Survived – 生存フラグ(0=死亡、1=生存)
Pclass – チケットクラス
Name – 乗客の名前
Sex – 性別(male=男性、female=女性)
Age – 年齢
SibSp – タイタニックに同乗している兄弟/配偶者の数
parch – タイタニックに同乗している親/子供の数
ticket – チケット番号
fare – 料金
cabin – 客室番号
Embarked – 出港地(タイタニックへ乗った港)
train.head()
前処理
Pythonでアンサンブル(スタッキング)学習 & 機械学習チュートリアル in Kaggle
↑前処理が簡潔で、データをあまりいじっていないので参考にさせていただきました。ありがとうございます。
基本的には前処理により以下の用にビン分割した。(ビン分割した理由は結果を人間が解釈しやすくなるため)
Value | Age(年齢) |
---|---|
0 | 16歳以下 |
1 | 32歳以下 |
2 | 48歳以下 |
3 | 64歳以下 |
4 | それ以上 |
Value | Fare(料金) |
---|---|
0 | 凄い低い |
1 | 低い |
2 | 高い |
3 | 凄い高い |
Value | Embarked(出港地) |
---|---|
0 | S 人が多い |
1 | C お金持ちが多い |
2 | Q 貧困が多い |
Value | Title(敬称) |
---|---|
0 | Mr |
1 | Miss |
2 | Mrs |
3 | Master |
4 | Rare |
Value | Sex(性別) |
---|---|
0 | female 女性 |
1 | male 男性 |
Value | Pclass(チケットクラス) |
---|---|
0 | 高級 |
1 | 中級 |
2 | 下級 |
Value | IsAlone(家族有無) |
---|---|
0 | 家族なし |
1 | 家族あり |
full_data = [train, test]
# 客室番号データがあるなら1を、欠損値なら0
train['Has_Cabin'] = train["Cabin"].apply(lambda x: 0 if type(x) == float else 1)
test['Has_Cabin'] = test["Cabin"].apply(lambda x: 0 if type(x) == float else 1)
# 家族の大きさを"タイタニックに同乗している兄弟/配偶者の数"と
# "タイタニックに同乗している親/子供の数"から定義
for dataset in full_data:
dataset['FamilySize'] = dataset['SibSp'] + dataset['Parch'] + 1
# 家族の有無 0なら家族なし、1なら家族あり
for dataset in full_data:
dataset['IsAlone'] = 0
dataset.loc[dataset['FamilySize'] == 1, 'IsAlone'] = 1
# 出港地の欠損値を一番多い"S"としておく
for dataset in full_data:
dataset['Embarked'] = dataset['Embarked'].fillna('S')
# 料金の欠損値を中央値としておく
# 料金の4グループに分ける
for dataset in full_data:
dataset['Fare'] = dataset['Fare'].fillna(train['Fare'].median())
train['CategoricalFare'] = pd.qcut(train['Fare'], 4)
# 年齢を5グループに分ける
for dataset in full_data:
age_avg = dataset['Age'].mean()
age_std = dataset['Age'].std()
age_null_count = dataset['Age'].isnull().sum()
age_null_random_list = np.random.randint(age_avg - age_std, age_avg + age_std, size=age_null_count)
dataset['Age'][np.isnan(dataset['Age'])] = age_null_random_list
dataset['Age'] = dataset['Age'].astype(int)
train['CategoricalAge'] = pd.cut(train['Age'], 5)
# 正規表現で姓名を取り出す
def get_title(name):
title_search = re.search(' ([A-Za-z]+)\.', name)
if title_search:
return title_search.group(1)
return ""
for dataset in full_data:
dataset['Title'] = dataset['Name'].apply(get_title)
# 誤字修正
dataset['Title'] = dataset['Title'].replace(['Lady', 'Countess','Capt', 'Col','Don', 'Dr', 'Major', 'Rev', 'Sir', 'Jonkheer', 'Dona'], 'Rare')
dataset['Title'] = dataset['Title'].replace('Mlle', 'Miss')
dataset['Title'] = dataset['Title'].replace('Ms', 'Miss')
dataset['Title'] = dataset['Title'].replace('Mme', 'Mrs')
for dataset in full_data:
# 性別を2種類にラベル付 女なら0、男なら1
dataset['Sex'] = dataset['Sex'].map( {'female': 0, 'male': 1} ).astype(int)
# 敬称を5種類にラベル付
title_mapping = {"Mr": 1, "Miss": 2, "Mrs": 3, "Master": 4, "Rare": 5}
dataset['Title'] = dataset['Title'].map(title_mapping)
dataset['Title'] = dataset['Title'].fillna(0)
# 出港地の3種類にラベル付
dataset['Embarked'] = dataset['Embarked'].map( {'S': 0, 'C': 1, 'Q': 2} ).astype(int)
# 料金を4グループに分ける
dataset.loc[ dataset['Fare'] <= 7.91, 'Fare'] = 0
dataset.loc[(dataset['Fare'] > 7.91) & (dataset['Fare'] <= 14.454), 'Fare'] = 1
dataset.loc[(dataset['Fare'] > 14.454) & (dataset['Fare'] <= 31), 'Fare'] = 2
dataset.loc[ dataset['Fare'] > 31, 'Fare'] = 3
dataset['Fare'] = dataset['Fare'].astype(int)
# 年齢を5グループに分ける
dataset.loc[ dataset['Age'] <= 16, 'Age'] = 0
dataset.loc[(dataset['Age'] > 16) & (dataset['Age'] <= 32), 'Age'] = 1
dataset.loc[(dataset['Age'] > 32) & (dataset['Age'] <= 48), 'Age'] = 2
dataset.loc[(dataset['Age'] > 48) & (dataset['Age'] <= 64), 'Age'] = 3
dataset.loc[ dataset['Age'] > 64, 'Age'] = 4 ;
# 必要ない特徴を削除
drop_elements = ['PassengerId', 'Name', 'Ticket', 'Cabin', 'SibSp']
train = train.drop(drop_elements, axis = 1)
train = train.drop(['CategoricalAge', 'CategoricalFare'], axis = 1)
test = test.drop(drop_elements, axis = 1)
データを読み込み、学習させたいデータと正解ラベルに分ける
y_train = train['Survived'].ravel()
x_train = train.drop(['Survived'], axis=1)
x_test = test.values
モデル作成
Gradient Boosting Decision Tree の LightGBMでモデルを作成する。
import lightgbm as lgbm
model = lgbm.LGBMClassifier()
model.fit(x_train, y_train)
y_pred = model.predict(x_test)
prediction = np.round(y_pred).astype(int)
Method: LIME(Local Interpretable Model-agnostic Explainations)
1つの予測結果から、別の解釈可能モデル(線形モデルetc)で局所近似
モデルの偏回帰係数から予測結果に特徴量の寄与の値を求める
貢献度は最適化問題を解くことで算出
- 説明したいデータの周辺からサンプリングしたデータを用意する
- 自分が作成した機械学習モデルを作成する
- 自作機械学習モデルと近似するように単純で解釈可能な機械学習モデルを新規でLIMEが作成する。
(このとき損失関数で相互のモデルの誤差を最小にするように設定していく) - LIMEが作成した機械学習モデルから予測した結果の解釈をする
Result:
#!pip install lime
import lime
from lime import lime_tabular
predict_proba = lambda x: np.array(list(zip(1-model.predict(x), model.predict(x))))
explainer = lime_tabular.LimeTabularExplainer(
x_train.astype(int).values,
mode='classification',
training_labels=train['Survived'],
feature_names=x_train.columns,
verbose=True
)
exp = explainer.explain_instance(
x_train.iloc[0],
predict_proba,
num_features=x_train.columns.shape[0]
)
exp.show_in_notebook(show_all=False)
左から
- 近似したあとの分類機の結果
- 各特徴量の予測結果への寄与
- 各特徴量の実際の値
年齢が若い男性で中流階級の人間は、モデルでは100%生存出来ないと判断している
生存不可判断の要因は、階級と性別が強く影響している(Titleは人名の敬称を抜き取ったものでMrを表し、
Pclassは中級を示ししている、Sexも男性を表している)
逆に生存可能判断の要因は、Ageなど年齢が若いことで生き残る可能性のほうに少しだけ振れているのがわかる
Discussion:
やっていることが明快でわかりやすいので解釈に向いてそう
(ただ、複雑なモデルをシンプルにするというアイデアはいいが、最近Tensorflowでも複雑なモデルを枝刈りをしてシンプルにするということをしていたりする手法も編み出されているため、あくまでモデルをビジネス運用するために簡易表現にするという使い方よりは、解釈の域をでないのかな、という印象)
予測結果を観測するため、機械学習モデルの種類に依存しないので汎用性がある
画像やテキストにも適用できるようになっているので便利そう
Referances:
Discussion