「Kaggleで磨く機械学習の実践力」で学んだ際のメモです。
はじめに
この記事は「Kaggleで磨く機械学習の実践力」で学んだ際のメモです。
Home Credit Deafault Risk(P213~)
・このコンペは住宅ローンの貸し倒れ(企業が誰かにお金を貸しても、その貸した金が回収できないと判断した資金のこと)リスクを審査するためのモデル作成
コンペ概要
・金融機関は一般的に貸倒れリスクが低い人にお金を貸したい。そっちの方が回収できる確率が高いから。なので貸付申請の情報から、金融機関は「この人にお金貸していいの?」という信用度の分析する必要がある。
・できるだけ信用度の高い人を出してほしいというのが本コンペの目的
評価指標
・評価指標はAUC(Area Under the Curve)
・なぜその評価指標が採用されているのかを考えるのは非常に大事だそう(P60より)。というのも実務では自分で評価指標を決める必要があることがあるから!だそう。
AUCとは
以下の記事を参考にして書いています。
・単に「AUC」という場合、ROC曲線を使ったAUCである場合がほとんどだそう
ROC曲線とは
・ROC曲線(こちらも評価指標)とは縦軸に真陽性率(TPR:True Positive Rate)、横軸に偽陽性率(FPR:False Positive Rate)をプロット(データを図表上に示すこと)したもののことだそう。つまり、FPRとTPRの関係を示したグラフのこと。
・こんな感じ
一部抜粋:https://atmarkit.itmedia.co.jp/ait/articles/2211/24/news019.html
・次にTPRの定義について、ネジ生産の工場を例えて説明してみる。生産したネジが異常かそうでないかを分類する機械学習モデルを作成したとする。
引用:https://www.kikagaku.co.jp/kikagaku-blog/roc-auc/
・このモデルを使用して1000個のネジを異常品、正常品に分類する
・結果こうなったとする。
引用:https://www.kikagaku.co.jp/kikagaku-blog/roc-auc/
・この表を混同行列と呼ぶ。
・正常品をPostitve、異常品をNegativeとする。
・このとき全異常品のうち、実際に異常品であったものを正しく「これは異常品です!」と判定できた割合をTPR(40%)。一方、全異常品のうち、実際は正常品であったものをFPR(5%) という。
分析のステップ
・初めにベースラインの作成
・ここで大事なのはデータ読み込みからモデルの学習、評価までの骨格を完成させること
・スモールスタートが吉
Step1:ベースライン作成
・目的変数(予測したいもの):貸倒れあり(=1)と貸倒なし(=0)
前処理
感想
・この章を読了したら同じ2値分類のコンペに参加してみる。やみくもに全部を読んでても内容忘れるだけなので、本書で学んだことをすぐアウトプットできるよう、2値分類コンペに出場してみようと思った。
Discussion