📚
ScoreCardシーリズ(3)——離散化(グルーピング)の方法(Grouping Method)
4.信頼できるAIの要素——PSI(population stability index)
5.スコアの計算
Github:https://github.com/datasciencekun/lapras
離散化(グルーピング)とは、データを区間ごとに分割することで、量的データを質的データに変換する手法です。
教師なし離散化
等間隔の離散化
先に区間を設定し、各データがどの区間に属するかで割り振る方法です。区間の長さは一般的に相互に等しいです。
等サンプルの離散化
先に区間のデータ数を設定したあとに、データを割り振る方法です。データ数から逆算して区間を決めるため、各区間の範囲はバラバラになります。
教師あり離散化
教師なし離散化は独立でやれるので、理解しやすいです。一方で、教師あり離散化はモデルのYラベルによるデータ特徴を割り振る方法です。
決定木離散化
アイデア:
- 離散化されような特徴とYラベルに簡単な決定木モデルを構築します。
- 決定木モデルで、分割区間が分かって、そのように割り振ります。
- 各区間の指標を計算します。
最終の結果は下記のようになります。
単調離散化
決定木で分割すれば、各区間のYラベルの比率は単調にならないかもしれないです。単調というのはずっと上がっていく、もしくはずっと下がっていくことです。
相手にモデルの原理を説明する時、単調なグラフは理解しやすいです。つまり、このようになります。
Discussion