🕌
ScoreCardシーリズ(4)——信頼できるAIの要素——PSI(population stability index)
4.信頼できるAIの要素——PSI(population stability index)
5.スコアの計算
Github:https://github.com/datasciencekun/lapras
PSI(Population Stability Index)はトレーニング特徴量の分布がスコアリングデータで観察される特徴量の分布からどの程度乖離しているかを呼ばれる指標です。
機械学習モデルは、ある時点のスナップショットを基に構築されます。そのため、予測ターゲットとトレーニングデータの特徴量の間に見られる関係性が徐々に変化して、関連がなくなる傾向が見られます。これは予想される状況です。主に、根本にあるビジネスプロセスの変化が速いほど、この関係性も早期に変化します。
精度、およびデータドリフトと呼ばれる数量を監視すると、より新しいデータのサブセットでモデルを再トレーニングすべきタイミングを見極めることができます。
PSIの用途
「Population Stability Index (PSI)」には複数の用途があります。以下にリストされています。
- モデルは経済変動の影響を受ける可能性があります。例えば、経済的な不況(2008年)の間にリスクモデルを構築し、その同じモデルを2016年のデータセットに適用する場合、過去8年間でモデルのさまざまな属性が大きく変化している可能性が高いです。モデルの特徴が大きく変わっている場合、このモデルを使用する意味はないと言えます。
- 内部方針の変更による製品提供の変更。例えば、製品の中で最近再開始されたものがある場合、その属性はモデルの属性と比較して異なる振る舞いをするかもしれません。
- PSIは、スコアリングコードを実行する際のデータ統合やプログラミングの問題を検出することができます。
PSIの計算方法
PSI = (% スコアリングサンプルの特徴 (A) - % トレーニングサンプルの特徴 (B)) * In(A/ B)
- スコアリングサンプル内でスコアリング変数を降順に並べ替える
- データを10または20のグループに分割する(デシリング)
- スコアリングサンプルに基づいて、各グループ内のレコードの割合を計算する
- トレーニングサンプルに基づいて、各グループ内のレコードの割合を計算する
- ステップ3とステップ4の差を計算する
- (ステップ3 / ステップ4) の自然対数を取る
- ステップ5とステップ6を掛ける
信頼できるかの判断規則
- PSI < 0.1 - 変化なし。既存のモデルを引き続き使用できます。
- PSI >= 0.1 ただし 0.2 未満 - 軽微な変更が必要です。
- PSI >= 0.2 - 重大な変更が必要です。理想的には、このモデルを使用しない方が良いでしょう。
Discussion