分散とは
今回は分散について説明していきます。
分散(Variance)とは
分散はデータのばらつきを表した指標です。
式では次のように定義されます。
ここで
-
-
-
-
です。
※
定義式からわかるように、それぞれのデータ値が、平均からどの程度ばらついているのかを表しています。
分散の単位は「データの単位の2乗」です。
例
サイコロで例を示します。
つまり、サイコロの出目の分散は約2.92である事が分かりました。
これは単位の2乗なので、平方根を取って約1.71となります。
つまり、各データはおおよそ平均値から1.71程度ばらついている事が分かります。
2乗という部分が少し分かりづらいかもしれませんが、たとえばサイコロではなく
[70,110,90,90,90]という等確率の分布があった場合、その分散は
となり、最小値と最大値の差異が40であるのに対してばらつきが160となり、少し理解しづらくなってしまいます。
このような時に単位を元に戻すと
として、平均90からおおよそ12.6のばらつきがあるのだと直感的に理解しやすくなります。
期待値への拡張
期待値とは、その事柄の平均値を表します。従って、期待値
※期待値が理解できていない方はこちらを見ておくと良いかもしれません。
期待値は、
・確率的事象の平均値(サイコロの1~6の平均3.5)
・何度か繰り返した場合の平均値(繰り返し事象の総和を、総数で割った数)
のどちらの意味も持ちます。(値は同じです)
そのため、最初に示した分散の定義
の
よって
のような形で分散と期待値の関係を定義できます。
これらは統計分野で関係するので、覚えておくと良いでしょう。
それでは今回はここまでです。読んでいただきありがとうございました!
Discussion