📚

交差検証(cross validation)

2022/01/10に公開

参考文献

https://www.youtube.com/watch?v=fSytzGwwBVw

ポイント

  • Machine Learning手法の精度検証に用いる

概要

  • データから予測モデルを作成するにしても、まず第一にどのMachine learning methodが一番適しているか決める必要がある
  • Cross validationは異なるMachine learning methodsを比較でき、実戦でどの程度効果があるかを知ることができる
  • In machine learning lingo(機械学習の専門用語では)
    • training the algorithm
      • パラメータを推定すること
    • testing the algorithm
      • 生成したモデルが新しいデータに対して機能するか評価すること
  • やってはいけないアプローチ
    • すべてのデータを使ってtrainすること
      • testに使うためのデータが残っていない状態になる
    • すべてのデータでtrainとtest両方を行うこと
      • 学習していないデータに対してどのように機能するかを知る必要があるため
  • 少し良いアイディア
    • 75%をtrainに用いて、残る25%をtestに用いる
    • しかし、最初の75%、残りの25%という分け方が最適かどうかはわからない
  • Cross Validationはすべてのデータを用いる
    • すべてのブロックを一つずつ用いて、最後に結果をまとめる手法
      • 4つに分割する方法を「Four-Fold Cross Validation」と呼ぶ
      • However, the number of blocks is arbitary.
      • →分割数は任意
        • 極端な場合、行すべてを個々に分割することもできる
        • これは「Leave One Out Cross Validation」と呼ばれる
      • 実際には10個に分割するのが一般的。これは「Ten-Fold Cross Validation」と呼ぶ
  • 「tuning parameter」を持つ手法を使いたい場合
    • 推定されないが、なんとなく推測されるパラメータ
    • リッジ回帰はtuning parameterを持つ
    • 10-fold cross validationはtuning parameterの最適な値を見つけるのに役立つ

Discussion