🗻

正規分布とは

に公開

前提知識

正規分布とは

正規分布は、統計学でもっとも基本的な分布。この世界のいろいろなこと、たとえば人間の身長の分布とかテストの点数の分布などは正規分布に従うとされている。
見た目はこんなかんじで、左右対称。

正規分布 (PDF) のグラフ
正規分布 (PDF) のグラフ

別名

この正規分布、もともとは科学実験における誤差が取る値の分布として導かれたもの。なので 誤差分布(Error Distribution) と呼ばれることもある。

また数学者ガウス(Johann Carl Friedrich Gauss(1777-1855))にちなんで ガウス分布 ともいう。(しかし最初にこの式を書いたのはド・モアブル(Abraham de Moivre, 1667-1754)らしい)

正規分布の特徴

ある分布が正規分布に従うかの判断基準はいくつかあるが、代表的なものが以下。

  • 平均値を中心に左右対称
  • 平均値と中央値と最頻値が重なる。
  • 平均値から \pm 1\sigma の間に約68%、 \pm 2\sigma の間に約95%、 \pm 3\sigma の間に約99%のサンプルが収まる。

正規分布の導出

こちらのページで導出をされているので、興味のある方はどうぞ。
http://www.eng.niigata-u.ac.jp/~nomoto/7.html

正規分布の関数

確率密度関数

正規分布 (Normal Distribution) の確率密度関数 (PDF) はこのようになる。

サンプルの取り得る値を x 、平均を \mu 、分散を \sigma^2 とすると、

pdf_{ND}(x\,|\,\mu,\sigma^2)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}

累積分布関数

累積分布関数 (CDF) は定義のまま計算してもよいが、誤差関数で表すこともできる。

平均を \mu 、分散を \sigma^2 とすると、

\begin{align*} CDF_{ND}(a\,|\,\mu,\sigma^2) &= \int_{-\infty}^a\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}dx \\[2em] &= \frac{1}{2}\ +\ \frac{\sigma}{2}\, erf(\frac{\frac{a-\mu}{\sigma}}{\sqrt{2}}) \end{align*}

モーメント母関数

coming soon...

標準正規分布

正規分布を扱う上で、平均や分散がどんな値であっても扱い方に変わりはない。なので、 平均を0分散を1 として扱いやすくする。これを 標準化(もしくは基準化 standardize) といって、標準化した正規分布を 標準正規分布(Standard Normal Distribution) という。いったん標準化していろいろ計算したあとで元に戻すのがメジャーなやり方。

確率密度関数 (PDF)

PDFは単純に平均を 0 、分散を 1 に置き換えただけ。

サンプルの取り得る値を x とすると、

pdf_{SND}(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}

累積分布関数 (CDF)

CDFも同様。

\begin{align*} CDF_{SND}(a) &= \int_{-\infty}^a\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}dx \\[2em] &= \frac{1}{2}\ +\ \frac{1}{2}\, erf(\frac{a}{\sqrt{2}}) \end{align*}

標準化の例題

例題:平均が 70 、分散が 16 の正規分布において、サンプルの値が 78 以上となる確率を求めよ。

そのまま \displaystyle \int_{78}^\infty \frac{1}{\sqrt{2\pi \times 4}}e^{-\frac{(x-70)^2}{2\times 16}}dx を計算しても解けるが、とても大変。

なので標準化する。

  • 平均: 70 → 0
  • 分散: 16 → 1
  • 求める範囲: 78以上 = 平均(70) + 8以上 → 平均(0) + \displaystyle \frac{8}{\sigma = 4} 以上 = 2以上

つまり、標準化とは ある値が平均よりも標準偏差の何倍離れているか を示すようにするということ。

今回の場合、 78 という値は 70+8 なので、平均よりも 8 上に離れている。標準偏差は 4 なので、平均よりも標準偏差の2倍だけ上に離れているといえる。

標準正規分布の分散は 1 つまり標準偏差は 1 だから、 2 よりも上の値をとる確率を求めればいい。

よってこう求まる。

\int_{2}^\infty \frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}dx \fallingdotseq 2.28\%

Discussion