🙆

【AWS認定】MLS-01 混合行列を試験用にわかりやすく理解する

2022/11/06に公開

【AWS認定】MLS-01 試験に出そうなアルゴリズム10選をできるだけわかりやすく書いてみる
https://zenn.dev/hiyanger/articles/9a940425d73182

につづき、MLSの混合行列は問題集の出題頻度もそれなりに高く、理解しにくかったのでまとめることにしました。実際に問題なんかも交えつつ、できるだけシンプルに考えていきたいと思います🤔

混合同列とは

予測と結果から考えられる4つのパターンのこと。
これによって評価を一目でわかるようになるので評価がしやすくなります。

①予測:あっている 結果:あっている→真陽性
②予測:あっている 結果:間違っている→偽陽性
③予測:間違っている 結果:あっている→偽陰性
④予測:間違っている 結果:間違っている→真陰性

実際に問題をといてみる①(Teck Stock Q17)

問題:製品を購入する可能性が高いと思われる顧客のみにサンプルを送りたい。顧客が購入のフォローアップをするか分析するとき、コストを節約するためにチームは混合同列の中でどの結果を最小化すべきか。

この問題では上記4つのパターンの中から選択します。
答えは 偽陽性 です。

偽陽性なので、フォローアップになると思ってサンプルを送ったが、実はフォローアップにならなかったという損をしてしまうパータンです。これは最小化すべきものです。

評価指標

上記の混合行列を踏まえ、この評価指標を使うとモデルの性能を数値化することができます。
問題集にはこっちのパターンの出題が多いで、こちらを理解する必要があります。

正解率(Accuracy)
モデルの予測とどれくらい一致していたか。

感度/再現率(Sensitivity/Recall)
実体が陽性のものを実際にどれくらい陽性と判定できたか。

適合率(Precision)
陽性と判定したものの中で、実体が陽性だったもの。

特異性(Specifisity)
実体が陰性のもを実際にどれくらい陰性と判定できたか。

実際に問題をといてみる②(Teck Stock Q14)

問題:製品を購入する可能性が高いと思われる顧客のみにサンプルを送りたい。顧客が購入のフォローアップをするか分析するとき、コストを節約するためにチームは混合同列の中でどの結果を最大化すべきか。

この問題では上記評価指標の4つの中から選択します。
答えは 特異性(Specifisity) です。

この特異性を当てはめて考えると、フォローアップにならないと予測したものが本当にフォローアップにならなかった。となります。つまり、不要なフォローアップを排除できるということになるので、コストの節約につながります。

以上です。なんだか高校の数学をやってる気分になりました。当時は苦手でしたが、こうやって順をおってあてはめていければちゃんと正解に辿りつけそうですね😀

※参考
・クラメソとかいうブログ神
https://dev.classmethod.jp/articles/aml-evaluation-measures/

・Teck Stock(MLS)
https://techstock.jp/exam/mls/

Discussion