📚

ScoreCardシーリズ(3)——離散化(グルーピング)の方法(Grouping Method)

2023/09/07に公開

1.スコアカードの由来

2.証拠の重さと情報価値(WOE and IV)

3.グルーピングの方法(Grouping Method)

4.信頼できるAIの要素——PSI(population stability index)

5.スコアの計算

6.実例:モデルの構築

Github:https://github.com/datasciencekun/lapras

離散化(グルーピング)とは、データを区間ごとに分割することで、量的データを質的データに変換する手法です。

教師なし離散化

等間隔の離散化

先に区間を設定し、各データがどの区間に属するかで割り振る方法です。区間の長さは一般的に相互に等しいです。

等サンプルの離散化

先に区間のデータ数を設定したあとに、データを割り振る方法です。データ数から逆算して区間を決めるため、各区間の範囲はバラバラになります。

教師あり離散化

教師なし離散化は独立でやれるので、理解しやすいです。一方で、教師あり離散化はモデルのYラベルによるデータ特徴を割り振る方法です。

決定木離散化

アイデア:

  1. 離散化されような特徴とYラベルに簡単な決定木モデルを構築します。
  2. 決定木モデルで、分割区間が分かって、そのように割り振ります。
  3. 各区間の指標を計算します。

最終の結果は下記のようになります。

単調離散化

決定木で分割すれば、各区間のYラベルの比率は単調にならないかもしれないです。単調というのはずっと上がっていく、もしくはずっと下がっていくことです。

相手にモデルの原理を説明する時、単調なグラフは理解しやすいです。つまり、このようになります。

Discussion