📚
交差検証(cross validation)
参考文献
ポイント
- Machine Learning手法の精度検証に用いる
概要
- データから予測モデルを作成するにしても、まず第一にどのMachine learning methodが一番適しているか決める必要がある
- Cross validationは異なるMachine learning methodsを比較でき、実戦でどの程度効果があるかを知ることができる
- In machine learning lingo(機械学習の専門用語では)
- training the algorithm
- パラメータを推定すること
- testing the algorithm
- 生成したモデルが新しいデータに対して機能するか評価すること
- training the algorithm
- やってはいけないアプローチ
- すべてのデータを使ってtrainすること
- testに使うためのデータが残っていない状態になる
- すべてのデータでtrainとtest両方を行うこと
- 学習していないデータに対してどのように機能するかを知る必要があるため
- すべてのデータを使ってtrainすること
- 少し良いアイディア
- 75%をtrainに用いて、残る25%をtestに用いる
- しかし、最初の75%、残りの25%という分け方が最適かどうかはわからない
- Cross Validationはすべてのデータを用いる
- すべてのブロックを一つずつ用いて、最後に結果をまとめる手法
- 4つに分割する方法を「Four-Fold Cross Validation」と呼ぶ
- However, the number of blocks is arbitary.
- →分割数は任意
- 極端な場合、行すべてを個々に分割することもできる
- これは「Leave One Out Cross Validation」と呼ばれる
- 実際には10個に分割するのが一般的。これは「Ten-Fold Cross Validation」と呼ぶ
- すべてのブロックを一つずつ用いて、最後に結果をまとめる手法
- 「tuning parameter」を持つ手法を使いたい場合
- 推定されないが、なんとなく推測されるパラメータ
- リッジ回帰はtuning parameterを持つ
- 10-fold cross validationはtuning parameterの最適な値を見つけるのに役立つ
Discussion