🕌

ScoreCardシーリズ(4)——信頼できるAIの要素——PSI(population stability index)

2023/09/07に公開

スコアカードモデリング入門シリーズ

  1. スコアカードの由来
  2. 証拠の重さと情報価値(WOE and IV)
  3. グルーピングの方法(Grouping Method)
  4. 信頼できるAIの要素——PSI(Population Stability Index)
  5. スコアの計算
  6. 実例:モデルの構築

ソースコード:GitHub Repository

PSI(Population Stability Index)の概要

PSI(Population Stability Index)は、トレーニングデータにおける特徴量の分布と、実際のスコアリングデータにおける分布との乖離度を測る指標です。

機械学習モデルは特定時点のデータスナップショットを基に構築されますが、時間の経過とともに予測ターゲットと特徴量間の関係性は変化していく傾向があります。特にビジネス環境の変化が急速な場合、この関係性の変化も加速します。

このような変化に対応するため、モデルの精度とデータドリフトを継続的に監視することで、モデルの再トレーニングの適切なタイミングを判断することができます。

PSIの主な用途

Population Stability Index (PSI)は、以下のような状況で特に有用です:

  1. 経済環境の変化への対応

    • 例:2008年の経済危機時に構築したリスクモデルを2016年のデータに適用する場合、8年間での特徴量の変化が著しい可能性があります。このような場合、モデルの有効性を再評価する必要があります。
  2. 内部施策変更の影響評価

    • 例:製品提供方針の変更により、モデル構築時とは異なる特性を持つデータが生成される可能性があります。
  3. 実装上の問題検出

    • スコアリングコード実行時のデータ統合やプログラミングの問題を早期に発見できます。

PSIの計算手順

基本式:

PSI = (% スコアリングサンプルの特徴 (A) - % トレーニングサンプルの特徴 (B)) * ln(A/B)

計算ステップ:

  1. スコアリングサンプル内の変数を降順にソート
  2. データを10~20の均等なグループに分割(デシリング)
  3. スコアリングサンプルの各グループにおける割合を算出
  4. トレーニングサンプルの各グループにおける割合を算出
  5. 両者の差分を計算
  6. 割合の比率(ステップ3/ステップ4)の自然対数を算出
  7. ステップ5とステップ6の積を計算

PSIに基づくモデル評価基準

  1. PSI < 0.1

    • 顕著な変化なし
    • 現行モデルの継続使用が可能
  2. 0.1 ≤ PSI < 0.2

    • 軽微な調整が必要
    • モデルの部分的な更新を検討
  3. PSI ≥ 0.2

    • 重大な変更が必要
    • モデルの使用中止を含めた抜本的な見直しを推奨

Discussion