♎
2項分類の評価指標について
今回は、2項分類の評価指標について自分の理解のためまとめた。
目次
- 2項分類とは?
- TP/TN/FP/TN
- 例
- 混合行列(confusion matrix)
- 二項分類モデル評価指標
- 適合指標の例
- 評価指標の直感的なイメージ
- 分類問題の評価指標のユースケース
- まとめ
2項分類とは?
オブジェクトの集まりに対し、それぞれのオブジェクトがある特定の属性を持つかどうかで2種類にグループ分けする分類作業のことを指す。
具体例:0か1か、奇数か偶数か など
TP/TN/FP/TN
2項分類では、入力された属性データに対してPositiveかNegativeの値を返す。
返された値(予測値)に対して、実際の値が合致しているか、どのように一致していないのかを評価する必要がある。
予測値と実際の値の組み合わせは 2x2=4 パターンある。
それぞれ、次の項目のように定義される。
TP/TN/FP/TN の例
例として、犬の画像を判別する例を示す。
- 真陽性(True Positive / TP)
- 犬の画像(Positive)を正しく(True)犬の画像である(Positive)と判定した
- 真陰性(True Negative / TN)
- 犬以外の画像(Negative)を正しく(True)犬以外の画像である(Negative)と判定した
- 偽陽性(False Positive / FP)
- 犬以外の画像(Negative)を間違えて(False)犬の画像である(Positive)と判定した
- 偽陰性(False Negative / FN)
- 犬の画像(Positive)を間違えて(False)犬以外の画像である(Negative)と判定した
混合行列(confusion matrix)
これらの情報を一つにまとめ、正解・不正解を整理した表を混合行列(confusion matrix)という。

二項分類モデル評価指標
混同行列に現れる4つの性質の要素の数によってモデルの性能が決まる。
性能評価の方法には様々なものがあるが、代表的なものには以下のものがある。
- 正解率(Accuracy)
全体のデータの中で正しく分類できたTPとTNがどれだけあるかを示す指標。

- 適合率(Precision)
Positive と分類されたデータ(TP + FP)の中に実際に Positive だったデータ(TP)の割合。
この値が高いほど、間違った分類が少ないことになる。

- 再現率/真陽性率(Recall/True Positive Rate)
取りこぼしなく Positive なデータを正しく Positive と推測できているかどうかの指標。
この値が高いほど、間違った Positive の判断が少ないという意味になる。

- 偽陽性率(False Positive Rate)
実際には Negative であるデータの中で、Positive であると判定されたデータの割合。
偽陽性率はこの指標単体で使うというよりは再現率 / 真陽性率と組み合わせて、後述の ROC 曲線というものを作成する時に使用する。

- F値(F-measure)
再現率と適合率の調和平均(逆数の平均の逆数)。
再現率と適合率はトレードオフの関係にある。

例:たくさん拾おうとすると誤検出が増えるし、正しさを厳密にすると取りこぼしが増える
適合指標の例
犬と猫の写真データ群の中から、猫の写真を選び出す検索システムAと検索システムBがあるとする。
結果は以下の通りになった。

システム毎のメリット・デメリットを比べてみた。
- システムA
- 〇 検索でヒットしたのが60件
- 〇 犬以外の猫などの写真をヒットさせる誤りは0件
- × 犬の写真の取りこぼしが70件発生
- システムB
- 〇 検索でヒットしたのが250件
- × 猫の写真をヒットさせる誤りが90件発生
- 〇 犬の写真の取りこぼしはなし
どちらの検索システムのほうが優秀稼働かは、検索の目的によって異なる。
- システムA
- 出力した結果の内、本当に見つけたいデータ(犬の写真)の割合が高かったので、「適合率が高い」と言える
- ユーザーが犬の写真をざっくりと検索したい、といった場合はこちらのほうが良さそう
- システムB
- 正解の検索ヒット数が高い(網羅性が高かった)ので、「再現性が高い」と言える
- ユーザーが犬の写真をすべてチェックしたい、ただ登録されているデータすべてのチェックは人手がかかる、といった場合はこちらが良い
評価指標の直感的なイメージ
- 何らかの指標値を目安にモデリング手法の選定やチューニングを行う
- データや解決したい課題に応じて指標値を選定する
- 正解率、適合率、再現率、F値は次に示すようなメリット・デメリットがあるというイメージをもつと、実際の分析でどの指標を重要視するべきなのかの判断がつきやすくなる
| メリット | デメリット | |
|---|---|---|
| 正解率 | シンプルで分かりやすい | 評価データ数に大きな偏りがある場合は不適切 |
| 適合率 | 過検知を発見できる | 取りこぼしを発見できない |
| 再現率 | 取りこぼしを発見できる | 過検知を発見できない |
| F値 | 取りこぼし、過検知をどちらもバランスよく判断できる | 数値の解釈が難しい |
分類問題の評価指標のユースケース
- 分類問題の評価指標で重要なことは、望まれる状況がどのような状態で、望まない状況がどのようなものであるかを明確にとらえること
- どの評価指標を最適化するべきかのひとつの考え方として偽陽性・偽陰性として予測されたデータの影響度合いを考えるというものがある
- これによって再現率 / 適合率のどちらを最適化すべきかの判断ができる
例1.病気のスクリーニング検査
- 望ましい状態
- 病気の人を取りこぼさないことが最重要
- 陽性と予測された場合は、追加検査や精密検査で再確認できる
- 望ましくない状態
- 本当は病気なのに「陰性」と予測してしまう(偽陰性)
- → 治療が遅れて命に関わる可能性
- 評価指標の選び方
- 再現率(Recall)を優先
- FN(偽陰性)を最小化したい
- 適合率が多少下がっても、病気を見逃さないことが最優先
- 再現率(Recall)を優先
例2.クレジットカード不正利用検知
- 望ましい状態
- 不正利用をできるだけ正確に検出する
- 正常取引を誤って止めると顧客体験が大きく損なわれる
- 望ましくない状態
- 正常な取引を「不正」と誤検出する(偽陽性)
- → 正当な購入が拒否され、顧客が離脱
- 評価指標の選び方
- 適合率(Precision)を優先
- FP(偽陽性)を最小化したい
- 検出した「不正」と判定した取引が本当に不正である信頼性を高める
- 適合率(Precision)を優先
まとめ
分類問題の評価指標で重要なことは、望まれる状況がどのような状態で、望まない状況がどのようなものであるかを明確にとらえることが大事
ROC 曲線などについては次回で解説したい
Discussion