🐎

分散とは

2023/08/27に公開

今回は分散について説明していきます。

分散(Variance)とは

分散はデータのばらつきを表した指標です。
式では次のように定義されます。
Var[X] = \dfrac{1}{N} \sum\limits_{i=1}^N(x_i-μ)^2

ここで
-X 確率変数(取りうる値。サイコロで言う1~6)
-x 実際のデータ値(サイコロでは一般的にx_1=1,x_2=2…,x_6=6)
-μ データの平均値(サイコロでは3.5)
-N データの総数(サイコロでは6)
です。
Xが「サイコロの出目」である場合、Var[X]は「サイコロの出目の分散」を表します。

定義式からわかるように、それぞれのデータ値が、平均からどの程度ばらついているのかを表しています。
分散の単位は「データの単位の2乗」です。

サイコロで例を示します。
Xは「サイコロの出目」です。
Var[X] = \dfrac{1}{N} \sum\limits_{i=1}^N(x_i-μ)^2
= \dfrac{1}{6} \sum\limits_{i=1}^6(x_i-3.5)^2
= \dfrac{35}{12}
= 2.91666…

つまり、サイコロの出目の分散は約2.92である事が分かりました。
これは単位の2乗なので、平方根を取って約1.71となります。
つまり、各データはおおよそ平均値から1.71程度ばらついている事が分かります。

2乗という部分が少し分かりづらいかもしれませんが、たとえばサイコロではなく
[70,110,90,90,90]という等確率の分布があった場合、その分散は
Var[X] = 160
となり、最小値と最大値の差異が40であるのに対してばらつきが160となり、少し理解しづらくなってしまいます。
このような時に単位を元に戻すと
\sqrt{160} \simeq 12.64
として、平均90からおおよそ12.6のばらつきがあるのだと直感的に理解しやすくなります。

期待値への拡張

期待値とは、その事柄の平均値を表します。従って、期待値Eと分散Varの関係は次のようになります。
Var[X] = E[(X-E[X])^2]
※期待値が理解できていない方はこちらを見ておくと良いかもしれません。

期待値は、
・確率的事象の平均値(サイコロの1~6の平均3.5)
・何度か繰り返した場合の平均値(繰り返し事象の総和を、総数で割った数)
のどちらの意味も持ちます。(値は同じです)

そのため、最初に示した分散の定義
Var[X] = \dfrac{1}{N} \sum\limits_{i=1}^N(x_i-μ)^2
μに1つ目の意味が対応し、\dfrac{1}{N} \sum\limits^Nに2つ目の意味が対応します。

よって
Var[X] = E[(X-E[X])^2]

のような形で分散と期待値の関係を定義できます。
これらは統計分野で関係するので、覚えておくと良いでしょう。

それでは今回はここまでです。読んでいただきありがとうございました!

Discussion