【AWS認定】MLS-01 試験に出そうなアルゴリズム10選をできるだけわかりやすく書いてみる
私(インフラエンジニア)にとってはほぼほぼ初見の機械学習。
初見+解説みても、何これ...? 状態なので、主要(できるだけおさえておきたい)なアルゴリズム10選だけ、試験用に噛み砕きまくったものをまとめてみます。🔥
機会学習の素人がやってるので、あくまでAWS認定/MLSの試験対策レベルというご理解をお願いします。このワードがきたら,このアルゴリズムだ!という法則をつかむ手助けになればなと思います🤔
事前知識
教師あり/なし
よく出てくる言葉です。人がデータに対してラベルをつけたものを教師ありと呼びます。先生がいるから指標があるようなイメージですね。教師なしはその逆のラベルなしと考えればOK。
分類と回帰
こちらも頻出のため覚えておくとよいです。
分類:出力がカテゴリ
回帰:出力が実際の値(過去のデータによる予測)
①MLS + 一般的な機械学習サイトにもよくでてくるもの
線形回帰
数値を予測するための教師あり学習。
使用例:売り上げや気温、生産数の予測
ロジスティック回帰
回帰とありますが、分類のみを行います。複数の要因が考えられる際に、特定の事象が起こる確率を予測するために用いられるモデルです。
使用例:クレジットスコアリング(顧客の信用度判断)、マーケティングキャンペーンの成功率の測定
ランダムカットフォレスト(RCF)
データセット内の異常なデータポイントを検出する教師なしアルゴリズム。決定木ベースなので決定木をイメージするとわかりやすいです。分類と回帰の両方で使えます。
サポートベクターマシン
なんだがすごそうな名前ですが、画像分類等で使われる、認識性能を発揮する教師あり学習モデルです。2つの特徴に基づいて行うバイナリ分類(後述)です。こちらも分類や回帰の両方で使えます。
使用例:画像ベースの性別検知、大規模な画像分類
K-Means
外れ値の検出ができる、教師なしの学習アルゴリズム。クラスタリング(グループわけ)
で最も使われる手法のひとつ。1つのグループのメンバーができるだけ類似し、他のグループのメンバーとできるだけ異なる離散グループをデータ内に見つけようとします。
使用例:国勢調査における都市や州における医療や社会プログラムのニーズ、自動車の複数センターデータから予測するエンジンに問題が発生する時期。(クラスタリング)
②その他MLSによくでてきたもの
バイナリ分類
線形学習アルゴリズム、XGBoostアルゴリズム(下記参照)で使用できる、1か0(yes no)の分類です。
線形学習
画像分類などの分類問題を解決する、教師あり学習アルゴリズム。分類や回帰の問題を解決するために使用されます。バイナリ分類にも使用できます。
使用例:特定のメールキャンペーンが特定の市場セグメントに対してレスポンスを生み出すかの判断、SNSにおけるタグつけされた写真に含まれる犬の犬種
XGBoost
一番名前がっこいい、誤差を小さくするように決定木を作るアルゴリズム。過学習(学習データにだけ適応した学習ばかりが過剰に進んでしまい、AIの、未知のデータに対して推定する性能が下がってしまうこと)低減、併せて高速演算を実現しています。つまりXGboostでは時間をかけずに簡単に、それなりの結果を得ることができます。またこちらもバイナリ分類やSageMaker組み込みアルゴリズム、複数クラスの分類に使用できます。
使用例:テーブルデータに基づくサブスクリプションのステータス予測するターゲットマーケティングモデル、特定のメールキャンペーンが特定の市場セグメントに対してレスポンスを生み出すかの判断、不正行為の分類(F1をスコア(再現率と適合率の調和平均)を使用したリサンプリング)
主成分分析法 (PCA)
相関関係による不安定さの軽減ができる、教師なし学習アルゴリズム。できる限りの情報を保持しながら、データセット内の次元 (特徴の数) の縮退を試行します。
使用例:国勢調査における都市や州における医療や社会プログラムのニーズ(特徴量の削減)、数万列あるデータのクラスタリング時間短縮
因数分解機アルゴリズム
レコメンデーション(おすすめ提示)上位 x 件を予測できる、教師あり学習アルゴリズム。分類と回帰の両方に使用できる。
使用例:クリック予測システム(特定の広告カテゴリの広告が特定のページカテゴリのページに配置されたときに確認されたクリック率パターンをキャプチャできる。)
表にしてみた
アルゴリズム | 分類/回帰 | 用途 | 教師 | 使用例 |
---|---|---|---|---|
線形回帰 | 回帰 | 数値予測 | あり | 売上予測 |
ロジスティック回帰 | 分類 | 特定の事象が起こる確率を予測 | あり | クレジットスコアリング |
ランダムカットフォレスト(RCF) | 分類/回帰 | 異常なデータポイント検出 | なし | |
サポートベクターマシン | 分類/回帰 | 2つ特徴に基づいて行うバイナリ分類 | あり | 画像ベースの性別検知 |
K-Means | 分類 | 外れ値の検出 | なし | 国勢調査における都市や州における医療や社会プログラムのニーズ |
バイナリ分類 | 分類 | 1か0の分類 | あり | 線形学習アルゴリズム、XGBoostアルゴリズムで使う |
線形学習 | 分類 | 画像分類など | あり | 特定のメールキャンペーンが特定の市場セグメントに対してレスポンスを生み出すかの判断 |
XGBoost | 分類 | 誤差を小さくするように決定木をつくる | あり | テーブルデータに基づくサブスクリプションのステータス予測するターゲットマーケティングモデル |
主成分分析法 (PCA) | 分類 | 次元 (特徴の数) の縮退 | なし | 国勢調査における都市や州における医療や社会プログラムのニーズ(特徴量の削減) |
因数分解機アルゴリズム | 分類/回帰 | レコメンデーション上位を予測 | あり | クリック予測システム |
以上です。もうちょっとわかりやすい名前つけてくれたら覚えやすかったのになぁと思いました。
これ私の感想ですよね😏
SageMaker触ってみたい...
※参考サイト(感謝)
Discussion