ScoreCardシーリズ(2)——証拠の重さと情報価値(WOE and IV)
4.信頼できるAIの要素——PSI(population stability index)
5.スコアの計算
Github:https://github.com/datasciencekun/lapras
証拠の重さ(WOE、Weight of Evidence)
WOEというのは“Weight of Evidence”、つまり証拠の重さです。WOEは原始引数を符号化したものです。変数をWOEエンコードするには、まずその変数をグルーピング(Binning)する必要があります。グルーピングの方法がいくつありますが、今後の動画を紹介します。グルーピングをすると、iのグループのWOEの計算式は次のようになります。
yiはこのグループのポジティブなサンプルの数です。
niはこのグループのネガティブなサンプルの数です。
yTは全てのサンプルの中でポジティブな数です。
nTは全てのサンプルの中でネガティブな数です。
ポジティブ:二項分類の1です。
ネガティブ:二項分類の0です。
以上の計算式による、WOEはこのように理解できる:
このグループのポジティブなサンプルの数とネガティブなサンプルの数の比率 --> A
全体のポジティブなサンプルの数とネガティブなサンプルの数の比率 --> B
AとBの比率です。
AはBより大きいな場合、WOEは正数になります。
AはBより小さいな場合、WOEは負数になります。
ちょっと理解しにくいですが、後で実例を使ってもう一回説明したいと思います。
情報価値(IV、Information Value)
IVの用途
IVは一体なのことですか?結論から言うと、情報の価値で、特徴の予測能力です。
機械学習モデルを構築する時、データ特徴がいっぱいあります。その中でどっちが重要なのか、どっちが無用かわからないです。人間の判断ではなく、具体的な指標が必要です。
IVはそいう指標の一つで、データ特徴の予測能力です。IVは正数で、高ければ高いほど予測能力が高いです。 要するに、情報量を数字にすることです。IVを通じて、特徴の選択が可能です。
IVの計算
WOEの紹介を通じて、IVの計算方法を説明します。iのグループのWOEを計算した上で、iのグループのIVが下記の計算式になります。
グループごとにIVがあれば、特徴のIVが計算しやすいです。簡単に全てのIVの総和になります。
その中で、iはグループの数です。
IVの計算式で見れば、IVはいつも正数になります。
実例で紹介
これからは実例を使ってIVとWOEの計算方法を紹介したいと思います。
実例
ある会社はマーケティングイベントをしたいです。どんな顧客がマーケティングイベントに応じるかわかるために、データ分析が必要です。歴史データとして10万のサンプルがあり、下記のデータ特徴があります。
- 直近一ヶ月買うことがあるか
- 直近一回の購入金額
- 直近一回の購入商品のカテゴリ
- VIP顧客か
上記のデータ特徴はもうグループ(Binning)にされました。下記のようになります。
(1)
直近一ヶ月買うことがあるか | 応じる | 応じない | 合計 | 応じるパーセンテージ |
---|---|---|---|---|
はい | 4000 | 16000 | 20000 | 20% |
いいえ | 6000 | 74000 | 80000 | 7.5% |
合計 | 10000 | 90000 | 100000 | 10% |
(2)
直近一回の購入金額 | 応じる | 応じない | 合計 | 応じるパーセンテージ |
---|---|---|---|---|
<100 | 2500 | 47500 | 50000 | 5% |
[100,200) | 3000 | 27000 | 30000 | 10% |
[200,500) | 3000 | 12000 | 15000 | 20% |
>=500 | 1500 | 3500 | 5000 | 30% |
合計 | 10000 | 90000 | 100000 | 10% |
(3)
直近一回の購入商品のカテゴリ | 応じる | 応じない | 合計 | 応じるパーセンテージ |
---|---|---|---|---|
電気 | 3000 | 57000 | 60000 | 5% |
化粧品 | 2000 | 18000 | 20000 | 10% |
食べ物 | 5000 | 15000 | 20000 | 25% |
合計 | 10000 | 90000 | 100000 | 10% |
(4)
VIP顧客か | 応じる | 応じない | 合計 | 応じるパーセンテージ |
---|---|---|---|---|
はい | 5500 | 4500 | 10000 | 55% |
いいえ | 4500 | 85000 | 90000 | 5% |
合計 | 10000 | 90000 | 100000 | 10% |
WOEとIVの計算
上記の”直近一回の購入金額”を例として計算したいと思います。
上記の計算結果をまとめて、このようになります。
直近一回の購入金額 | 応じる | 応じない | 合計 | 応じるパーセンテージ | WOE | IV |
---|---|---|---|---|---|---|
<100 | 2500 | 47500 | 50000 | 5% | -0.74721 | 0.20756 |
[100,200) | 3000 | 27000 | 30000 | 10% | 0 | 0 |
[200,500) | 3000 | 12000 | 15000 | 20% | 0.81093 | 0.135155 |
>=500 | 1500 | 3500 | 5000 | 30% | 1.349927 | 0.149992 |
合計 | 10000 | 90000 | 100000 | 10% | 0 | 0.492706 |
WOEの計算結果を通じて、このような結論がわかります。
- 応じるパーセンテージは高ければ高いほどWOEが高いです。
- 本グループの応じるパーセンテージは合計のパーセンテージより低い場合、WOEが負数になります。逆に、高い場合WOEが正数になります。イコウルの場合WOEが0になります。
- WOEの数値範囲が全体実数です。
注意:
IVの数値範囲が[0,+∞)になります。極端な場合、あるグループは応じるもしくは応じないサンプルがある時、IVが+∞になってしまいます。こんな時は特別な操作が必要です。例えば、もう一回グループを分けること、強引に一つの逆サンプルを入れることなどです。
IVで予測能力の優先順位を決める
前の内容にもうIVの計算方法を詳しく説明しました。他の特徴を計算しなく、直接結果を出します。
- 直近一ヶ月買うことがあるか: 0.250224725
- 直近一回の購入商品のカテゴリ: 0.615275563
- VIP顧客か: 1.56550367
その四つの特徴の予測能力の優先順位はこのようになります。
- VIP顧客か
- 直近一回の購入商品のカテゴリ
- 直近一回の購入金額
- 直近一ヶ月買うことがあるか
もしデータ特徴を選択したい場合、IVを通じて選択ができます。
深く思えば
優先順位を決める時、どうしてWOEを使わないですか?WOEもある程度の予測能力があるんです。それは下記の理由として決まりました。
1、予測能力は正数を使った方がいいです。もちろんこの計算式を使って、正数になります。つまり、これは理由の一つです。
2、もっと重要な理由として、IVはWOEよりサンプルの比率あるいはウエイトを考えています。どうやて理解すればいいか?実例を使って紹介したいと思います。
A | 応じる | 応じない | 合計 | 応じるパーセンテージ | WOE | IV |
---|---|---|---|---|---|---|
1 | 90 | 10 | 100 | 90% | 4.39444 | 0.039062 |
0 | 9910 | 89990 | 99900 | 10% | -0.00893 | 7.937E-5 |
合計 | 10000 | 90000 | 100000 | 10% | 4.40337 | 0.039141 |
上記の例に、WOEは高いけどIVが低いです。理由としては、A=1の時パーセンテージが高いけど、このグループのサンプルが少ないです。Aは1になる確率が低いから、全体として予測能力が高くないです。
IVはWOEを(Pyi - Pyn)にかけて、このグループのサンプル数量によく考えています。WOEの総和より合理的になります。
Discussion