🕌
ScoreCardシーリズ(4)——信頼できるAIの要素——PSI(population stability index)
スコアカードモデリング入門シリーズ
- スコアカードの由来
- 証拠の重さと情報価値(WOE and IV)
- グルーピングの方法(Grouping Method)
- 信頼できるAIの要素——PSI(Population Stability Index)
- スコアの計算
- 実例:モデルの構築
ソースコード:GitHub Repository
PSI(Population Stability Index)の概要
PSI(Population Stability Index)は、トレーニングデータにおける特徴量の分布と、実際のスコアリングデータにおける分布との乖離度を測る指標です。
機械学習モデルは特定時点のデータスナップショットを基に構築されますが、時間の経過とともに予測ターゲットと特徴量間の関係性は変化していく傾向があります。特にビジネス環境の変化が急速な場合、この関係性の変化も加速します。
このような変化に対応するため、モデルの精度とデータドリフトを継続的に監視することで、モデルの再トレーニングの適切なタイミングを判断することができます。
PSIの主な用途
Population Stability Index (PSI)は、以下のような状況で特に有用です:
-
経済環境の変化への対応
- 例:2008年の経済危機時に構築したリスクモデルを2016年のデータに適用する場合、8年間での特徴量の変化が著しい可能性があります。このような場合、モデルの有効性を再評価する必要があります。
-
内部施策変更の影響評価
- 例:製品提供方針の変更により、モデル構築時とは異なる特性を持つデータが生成される可能性があります。
-
実装上の問題検出
- スコアリングコード実行時のデータ統合やプログラミングの問題を早期に発見できます。
PSIの計算手順
基本式:
PSI = (% スコアリングサンプルの特徴 (A) - % トレーニングサンプルの特徴 (B)) * ln(A/B)
計算ステップ:
- スコアリングサンプル内の変数を降順にソート
- データを10~20の均等なグループに分割(デシリング)
- スコアリングサンプルの各グループにおける割合を算出
- トレーニングサンプルの各グループにおける割合を算出
- 両者の差分を計算
- 割合の比率(ステップ3/ステップ4)の自然対数を算出
- ステップ5とステップ6の積を計算
PSIに基づくモデル評価基準
-
PSI < 0.1
- 顕著な変化なし
- 現行モデルの継続使用が可能
-
0.1 ≤ PSI < 0.2
- 軽微な調整が必要
- モデルの部分的な更新を検討
-
PSI ≥ 0.2
- 重大な変更が必要
- モデルの使用中止を含めた抜本的な見直しを推奨
Discussion