上記のフラフは、ドラゴンボールの戦闘力を、
棒線グラフにしたものだ。
見てわかる通り、これまでの一般的な値から、大きく逸脱した値(今後外れ値と呼ぶ)であるフリーザの53000がプロットされている。
これは、機械学習の学習データの入力として用いる際に、悩ましい問題だ。
その理由は、手持ちのデータをそのまま使用して計算してしまうと、
推測したい結果が、大きく依存する特徴量を見誤ったまま、学習してしまい、その結果、望むような回答を得ることが出来ない。
「大きく依存する特徴量を見誤ったまま学習してまう」とは一体どういう事かと言うと。
機械学習は本来、体重は身長と言う特徴量に大きく依存するはずだが、
例えば全く関係のない、体重は爪の長さなどの、さほどに大きく関係しない特徴量に注目してしまうといったことが起きてします。
その原因は、最大値、最小値が異なることにある。
要するに、数値の範囲が異なる場合、機械学習にとって不都合なのである。
ではいかなる対処を施すべきか。
それは、手持ちのデータを最大値、最小値を決定し、その中に収めてから、
学習すれば解決する。
これが、機械学習において、あらかじめ手持ちデータに対して標準化や正規化を施す理由だ。