📖

教師あり・教師なし学習:超基礎

2023/05/20に公開

教師あり、なし学習について学ぶ

機械学習は大きく分けて3つのカテゴリーに分かれる

  • 教師あり学習
  • 教師なし学習
  • 強化学習

教師あり学習

教師あり学習とは...わかりやすく言うと「知識を覚える」行為。
あらかじめ用意された正解を学習することで意図した予測や意図した分類を行う
・教師あり学習の流れ
1.モデルにデータを入力する
2.モデルが出力したデータと教師データを突き合わせ、意図した正解を予測させる
3.学習後は道のデータに対して意図した正解を予測できるようなモデルができている

回帰タスク

教師データが「量的変数」→予測
※量的変数とはデータ形式が数値のデータ
例:身長データから体重を予測する
例:曜日や気温からお弁当の売上を予測する

分類タスク

教師データが「質的変数」→分類
※質的変数とはデータ形式が数値ではないデータ
例:体重から服のサイズ(S,M,Lなど)を予測する
例:アドレス、文書内容から迷惑メールを分類する

用いられるモデルについて

  • 線形回帰...目的変数と説明変数の関係性を線形で表現するモデル
    →回帰タスクで用いられる
  • ロジスティック回帰...二値分類のための線形モデル
    →分類タスクで用いられる
  • 決定木モデル...段階的にデータを分割していき、木のような分析結果を出力する
    →解釈が容易で、どちらのタスクにも用いられる
  • アンサンブル学習...単独では精度の高くないモデルを複数用いて精度の高い予測を出す手法
  • ランダムフォレスト...アンサンブル学習の1種で、複数の決定木を生成し、
    統合することで汎化能力を向上させる手法

教師なし学習

教師なし学習とは...「知識を発見する」行為のこと。
データのグルーピングや見やすい形に可視化することで特徴や規則性を発見する

クラスタリング

データをグルーピングする手法
データセットを類似性に基づき「クラスタ」と呼ばれるグループに分割

  • k-means法...最も基本的なクラスタリングのアルゴリズム
    1.分割対象となるクラスタ数kを決める(何個か)
    2.各データをランダムにクラスタに分類して、各クラスタの重心(セントロイド)を決める
    3.各データ、どのセントロイドに最も近いかを計算し、近いクラスタに再度振り分ける
    4.セントロイドの位置をそのクラスタに含まれるデータの重心になるように移動する
    5.各セントロイドの重心が変わらなくなるまで3,4を繰り返す

次元削減

データを特徴づける情報を抽出する手法
本質的な意味を保ったままデータセットの情報を削減する

  • 次元とは
    数学では一般的な空間の広がり方の度合いを表すもの
    座標の数で表される線は1次元、面は2次元、立体は3次元
    空間は3次元であるが、n次元や無限次元も考えられる
    次元削減はデータの次元数を減らすこと
    目的:データの圧縮...データの意味を保ったまま、圧縮し特徴を捉えやすくする
    目的:データの可視化...次元数を減らし、人が認識できる形に可視化する
    つまり!知識を発見しやすくする!

  • 主成分分析
    次元削減の一手法
    高次元のデータを、データのばらつきを元に、低次元のデータに変換する方法
    抽出された指標(次元)はデータの特徴をとらえている指標であり、それらを主成分と呼ぶ

例:「消費者がどんなビールを求めているか」
香り・苦味・コク・色・泡立ちなどなど…←これが次元!
現状だと次元数が多いため特徴を捉えにくい状態!

消費者が求めているビールの特徴をとらえやすくするために主成分分析を行う
とりあえず4つの主成分を抽出(合成するイメージ) 例:味わい・爽快感・見た目・保管状態
寄与率...この主成分だけで元のデータの何割をカバーできているか
味わい...0.45 第一主成分(最も元データの特徴をとらえた主成分)
爽快感...0.3 第二主成分(第一主成分の次に元データの特徴をとらえた主成分)
見た目...0.15 第三主成分
保管状態...0.1 第四主成分
今回の例だと第三主成分までで0.9 = 90%カバーできていることが分かる!

所感

教師あり・なし学習を学びました。
基礎的な部分は網羅できたのではないかと思います!
私が扱っている参考サイトには強化学習がない基礎的なものでしたので
別の参考書で強化学習を学んでいきます!

Discussion