Chapter 06

確率 後編

📌 確率分布

これまで,ある事象が起こる確率を求めてきました.事象ごとの確率を取り扱うときに,事象に対応した実数を変数として,その変数に対応した確率が与えられるようにします.このような変数を 確率変数 といい,X,Yなどの大文字で表します.ある試行の結果(つまり事象)\omegaによってXの値が決まる場合,X(\omega)とすれば,その事象が起こる確率が与えられます.例えば,サイコロの出目を確率変数とすると,X\{1,2,3,4,5,6\}の値をとれることになります.ここで,確率変数とその確率を表にまとめると次のようになります.

2018-11-25_18h14_18

このような表を 確率分布表 といいます.確率分布表を見るとすべての事象に対して確率がどのように分布しているかがわかります.このサイコロの例で見ると確率が均等になっています.例えば確率変数が1のときの確率は

P(X=1) = \frac{1}{6}

と表記することができます.

確率変数は実数の値をとりますが,たとえばコインの表裏など直接数値に対応していない場合があります.その場合は表を1
,裏を0として対応させます.すると

P(X=1) = \frac{1}{2}, \quad P(X=0) = \frac{1}{2}

となります.確率変数はサイコロの出目やコインの表裏などのように離散の値や,連続した値をとることができます.例えば,確率変数が身長の値をとるとき,P(170.1 \leq X \leq 175.8)とすれば170.1~175.8の確率が得られます.

離散の確率変数に対して,Xx_i(i=1,2,\ldots,n)となる確率を

P(X=x_i) = p_i

という関係にあるとき,確率は関数の形で

f(x) = \begin{cases} p_i & \quad (x=x_i) \\ 0 & \quad (x\neq x_i) \end{cases}

と書けます.このような関数を 確率密度関数(probability density function:pdf) といいます.
すべての確率の和は1なので

\sum_{i=1}^{n} f(x_i) = 1 \qquad f(x_i) \geq 0

が成り立ちます.また,確率変数Xのとる値がx以下である確率について

F(x) = P(X\leq x)

という関数を考えることができます.このような関数を 累積分布関数(cumulative distribution function:cdf) といいます.

例えば,サイコロを振ったときの確率密度関数と累積分布関数のグラフは次のようになります.

2018-11-25_18h14_28

次に確率変数が連続の場合,離散と同じように確率密度関数と分布関数を考えることができます.確率変数の値の範囲がa\leq x \leq bだとすると,Xxx+\Delta xの間にある確率は

P(x\le X \leq x+\Delta x) = \int_{x}^{x+\Delta x} f(u)du

となるような関数f(x)が連続の確率密度関数です.ここで\Delta xが小さいとき,積分は面積で近似できるので

P(x\le X \leq x+\Delta x) \doteqdot f(x)\Delta x

と書くことができます.連続でもすべての確率の和は1であるので,

\int_{a}^{b} f(x)dx = 1

が成り立ちます.また,区間a\leq x \leq bに含まれていない場合はf(x)=0として,

\int_{-\infty}^{\infty} f(x)dx = 1

と書くこともできます.次に,連続の累積分布関数は次のようになります.

F(x) = \int_{-\infty}^{x} f(u)du

連続の確率密度関数と累積分布関数の例として正規分布(後で詳しく出てきます)のグラフは次のようになります.

2018-11-25_18h14_37

離散の確率密度関数と連続の確率分布関数の違いを確認してみると,離散の確率密度関数では,ある確率変数の確率が

p(X=x_i) = f(x_i)

の関係になりますが,連続の場合

p(a\leq x \leq a) = p(x=a) = \int_{a}^{a}f(x)dx = 0

となって

p(x=a) \neq f(a)

ということになります.また,離散と連続の累積分布関数F(x)を微分するとf(x)が得られます.

f(x) = \frac{dF(x)}{dx}

これはグラフ上の累積分布関数F(x)の曲線上の各点での勾配が,確率密度関数f(x)の値になっていることを意味しています.

ここで次のような確率密度関数を考えてみます.

f(x) = \begin{cases} c & \quad (|x|\leq 1) \\ 0 & \quad (|x|> 1) \end{cases}

この分布は確率変数Xが-1から1までの範囲で確率密度が一定(c)であり,特に 一様分布 といいます.確率密度関数は

\int_{-\infty}^{\infty} f(x)dx = 1

を満たす必要があるため

\int_{-\infty}^{\infty} f(x)dx = \int_{-1}^{1}cdx = [cx]_{-1}^{1} = c-(-c) = 2c = 1
\therefore c = \frac{1}{2}

区間-1 < x < 1のとき,f(x)=1/2なので,累積分布関数は

F(x) = \int_{-\infty}^{x}f(y)dy = \int_{-1}^{x}\frac{1}{2}dy = \left[\frac{1}{2}y\right]_{-1}^{x} = \frac{1}{2}x-\left(-\frac{1}{2}\right) = \frac{1}{2}(x+1)

となります.-1 < x < 1の区間でf(x)=1/2を積分すれば

F(x) = \int_{-1}^{1}\frac{1}{2}dx = \left[\frac{1}{2}\right]_{-1}^{1} = \frac{1}{2}-\left(\frac{1}{2}\right) = 1

となって確率が1となっています.この確率密度関数と累積分布関数のグラフは次のようになります.

2018-11-25_18h14_45

この一様分布では区間が-1<x<1なので,任意の区間a\leq x \leq bを考えてみます.つまり,

f(x) = c \qquad (a\leq x \leq b)

まず,確率密度関数は負の値にならないので

f(x) = c \geq 0

となって

\int_{-\infty}^{\infty}f(x)dx = \int_{a}^{b}cdx = \left[cx\right]_{a}^{b} = c(b-a) = 1

より

c = \frac{1}{b-a} \qquad f(x) = \frac{1}{b-a}

となります.今度は次のような確率密度関数を考えてみます.

f(x) = \begin{cases} ce^{-x} & \quad (x \geq 0) \\ 0 & \quad (x < 0) \end{cases}

まず,確率密度関数は負の値にならないので

f(x) = ce^{-x} \geq 0 \qquad \therefore c \geq 0

となります.次に

\begin{aligned} \int_{-\infty}^{\infty}fxdx &= \int_{0}^{\infty}ce^{-x}dx = \left[-ce^{-x}\right]_{0}^{\infty} \\ &= \lim_{x\to\infty}\left(-ce^{-x}\right) - \lim_{x\to 0}\left(-ce^{-x}\right) = 0-(-c) = c = 1 \end{aligned}

よって

f(x) = e^{-x}

となります.これをより一般的にした場合

f(x) = \begin{cases} ce^{-\lambda x} & \quad (x \geq 0) \\ 0 & \quad (x < 0) \end{cases}

となって,cを求めると

\int_{0}^{\infty}ce^{-\lambda x}dx = \left[\frac{ce^{-\lambda x}}{-\lambda}\right]_{0}^{\infty} = \frac{c}{\lambda} = 1 \\ \therefore c = \lambda

したがって,この確率密度関数は

f(x) = \lambda e^{-\lambda x}

そして,累積分布関数は

F(x) = \int_{-\infty}^{x}f(y)dy = \int_{0}^{x}\lambda e^{-\lambda y}dy = \left[\frac{\lambda e^{-\lambda y}}{-\lambda}\right]_{0}^{x} = \left[-e^{-\lambda y}\right]_{0}^{x} = 1-e^{-\lambda x}

となります.このような確率分布を 指数分布 といいます.このグラフは次のようになります.

2018-11-25_18h14_54

📌 期待値と分散

確率密度関数がわかれば確率変数に対応した確率が求まりました.また,確率変数とその確率がわかれば,確率の分布がわかるようになります.確率分布を代表する値としてその 平均値 \mu を考えると,離散の場合

\mu = \sum_{i=1}^{n} x_i f(x_i)

連続の場合は

\mu = \int_{-\infty}^{\infty} xf(x)dx

となります.この平均値を特に 期待値 といい,確率変数Xの期待値をE[X]と表します.つまり\mu = E[X]です.以降は\muE[X]と同じ期待値として扱います.

例えば,サイコロの出目を確率変数とした場合,x_1=1,x_2=2,\ldots,x_6=6で,f(x_i)=1/6なので,その期待値は

\mu = 1\times \frac{1}{6} + 2\times \frac{1}{6} + 3\times \frac{1}{6} + 4\times \frac{1}{6} + 5\times \frac{1}{6} + 6\times \frac{1}{6} = \frac{21}{6} = 3.5

となります.また,サイコロの出目の平均値\overline{x}を求めると

\overline{x} = \frac{1+2+3+4+5+6}{6} = 3.5

となって,期待値と一致します.つまり,xにそれ
が出る確率をかけて足したものは,xの平均値となります.

\overline{x} = E[X]

次に宝くじの場合を考えてみます.この宝くじは1枚100円で,1等が1万円,2等が1000円,3等が200円とします.全部で1000枚の宝くじがあり,1等は1枚,2等が10枚,3等は100枚あるとします.1等,2等,3等の当たる確率はそれぞれ

\frac{1}{1000}, \quad \frac{10}{1000} = \frac{1}{100}, \quad \frac{100}{1000} = \frac{1}{10}

となります.この期待値を求めると

\mu = 10000\times \frac{1}{1000} + 1000\times \frac{1}{100} + 200\times \frac{1}{10} = 10+10+20 = 40

となって,この宝くじは一本あたり40円期待できると考えられます.何枚も宝くじを購入してもこの期待値は変わりませんが,宝くじが当たる確率は上がっていきます.

それでは次の確率密度関数の期待値を求めてみます.

f(x) = \begin{cases} xe^{^x} & \quad (x\geq 0) \\ 0 & \quad (x < 0) \end{cases}

この確率変数は連続で指数分布に従っています.よって期待値は

\mu = \int_{-\infty}^{\infty} xf(x)dx = \int_{0}^{\infty}x^2e^{-x}dx

となります.これは部分積分

\int_{a}^{b} f(x)g'(x)dx = \left[f(x)g(x)\right]_{a}^{b} - \int_{a}^{b}f'(x)g(x)dx

を利用して,f(x)=x^2, g'(x)=e^{-x}とするとf'(x)=2x,g(x)=-e^{-x}だから

\begin{aligned} \mu &= \int_{0}^{\infty}x^2e^{-x}dx \\ &= \left[x^2(-e^{-x})\right]_{0}^{\infty} - \int_{0}^{\infty} 2x(-e^{-x})dx \\ &= (0-0) - 2\int_{0}^{\infty}x(-e^{-x})dx \\ &= 2\int_{0}^{\infty}x(e^{-x})dx \end{aligned}

もう一度部分積分を使って

\begin{aligned} \mu &= 2\left( \left[x(-e^{-x})\right]_{0}^{\infty} - \int_{0}^{\infty}-e^{-x}dx\right) \\ &= 2\int_{0}^{\infty}e^{-x}dx \\ &= 2\left[-e^{-x}\right]_{0}^{\infty} = 2\times \{0-(-1)\} \\ &= 2 \end{aligned}

となります.この確率密度関数は図5のようなグラフになります.

2018-11-25_18h15_03

ここで次のような関数を考えてみます.

f(x) = \begin{cases} \displaystyle\int_{0}^{\infty} t^{x-1}e^{-t}dt & \quad (x\geq 0) \\ 0 & \quad (x<0) \end{cases}

xn+1を代入して,部分積分を利用すると

\begin{aligned} f(x) &= \int_{0}^{\infty} t^{x-1}e^{-t}dt \\ f(n+1) &= \int_{0}^{\infty} t^{n}e^{-t}dt \\ &= \left[-t^{n}e^{-t}\right]_{0}^{\infty} + n\int_{0}^{\infty} t^{n-1}e^{-t}dt \\ &= n\int_{0}^{\infty}t^{n-1}e^{-t}dt \\ &= nf(n) \end{aligned}

となって

f(n+1) = nf(n)

という漸化式が得られます.この関数を ガンマ関数 といい,\Gamma (x)と書きます.ガンマ関数は

\Gamma(x) = \int_{0}^{\infty} t^{x-1}e^{-t}dt

でしたので,x=1とすると

\Gamma(1) = \int_{0}^{\infty} e^{-t}dt = \left[-e^t\right]_{0}^{\infty} = 1

となります.ガンマ関数は

\Gamma(n+1) = n\Gamma(n)

の関係からxに正の整数を選ぶと

\begin{aligned} \Gamma(2)&=1\Gamma(1)=1 \\ \Gamma(3)&=2\Gamma(2)=2\cdot 1 \\ \Gamma(4)&=3\Gamma(3)=3\cdot 2\cdot 1 \end{aligned}

となって

\Gamma(n+1) = n\times(n-1)\times(n-2)\times\cdots\times 3\times 2 \times1 = n!

と階乗になります.そのため,ガンマ関数のことを 階乗関数 とも呼びます.

話を少し戻すと,確率密度関数がxe^xである指数分布の期待値は

\mu = \int_{0}^{\infty}x^2e^{-x}dx = 2

でした.これは

\Gamma(3) = \int_{0}^{\infty}t^{2}e^{-t}dt

と一致するので

\mu = \Gamma(3) = 2! = 2

となります.計算が簡単になりますね.
せっかくなので,ガンマ関数についてもう少し見ていきましょう.例えばガンマ関数で実数x=1/2とすると

\Gamma\left(\frac{1}{2}\right) = \int_{0}^{\infty}t^{\frac{1}{2}}e^{-t}dt

ここでt=u^2とおくとdt=2uduなので

\Gamma\left(\frac{1}{2}\right) = 2\int_{0}^{\infty}\frac{u}{\sqrt{u^2}}e^{-u^2}du = 2\int_{0}^{\infty}e^{-u^2}du

と変形できます.この積分は ガウス積分 (後で詳しく出てきます)なので

\int_{0}^{\infty}e^{-u^2}du = \frac{\sqrt{\pi}}{2}

となります.よって

\Gamma\left(\frac{1}{2}\right) = \sqrt{\pi}

となります.ガンマ関数の漸化式

\Gamma(n+1) = n\Gamma(n)

を利用すれば

\Gamma\left(\frac{3}{2}\right) = \Gamma\left(\frac{1}{2}+1\right) = \frac{1}{2}\Gamma\left(\frac{1}{2}\right) = \frac{\sqrt{\pi}}{2}

と計算することができます.また,nを正の整数とすれば

\Gamma\left(n+\frac{1}{2}\right) = \frac{(2n)!}{2^{2n}n!}\sqrt{\pi}

の関係が成り立ちます.

ガンマ関数として関係して, ベータ関数 というのがあります.ベータ関数はB(\alpha,\beta)で表し

B(\alpha,\beta) = \int_{0}^{1}x^{a-1}(1-x)^{\beta-1}dx \quad (\alpha>0, \beta>0)

と定義されます.ベータ関数とガンマ関数は

B(\alpha,\beta) = \frac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha+\beta)}

という関係になっています.ここで,\alpha,\betaともに正の整数n,mであるとき

\begin{aligned} \frac{1}{B(\alpha,\beta)} &= \frac{\Gamma(n+m)}{\Gamma(n)\Gamma(m)} = \frac{(n+m-1)!}{(n-1)!(m-1)!} \\ &= n{}_{n+m-1}C_{m-1} = m{}_{n+m-1}C_{n-1} \end{aligned}

と書くことができます.ガンマ関数では階乗,ベータ関数の逆数は組合せを整数ではないものに拡張したものと考えることもできます.

ガンマ関数とベータ関数はこれぐらいにして次に進みましょう.

確率変数とその確率分布から期待値が求まりました.その期待値と確率変数Xとの差を 偏差 といいます.式で表すとX-\muとなります.次に偏差の総和を求めてみます.例えば,サイコロの出目で考えると期待値は3.5だったので

(1-3.5)+(2-3.5)+(3-3.5)+(4-3.5)+(5-3.5)+(6-3.5) = \\ \quad (-2.5)+(-1.5)+(-0.5)+0.5+1.5+2.5 = 0

0になってしまいます.そこで偏差の平方(X-\mu)^2の総和を求めると

(1-3.5)^2+(2-3.5)^2+(3-3.5)^2+(4-3.5)^2+(5-3.5)^2+(6-3.5)^2 = \\ \quad 6.25+2.25+0.25+0.25+2.25+6.25 = 17.5

となって意味のある値となりました.この偏差の平方の期待値を求めてみると

E[(X-\mu)^2] = \sum_{i=1}^{n}(x_i-\mu)^2 f(x_i)

となります.これは離散のときで,連続の場合は

E[(X-\mu)^2] = \int_{-\infty}^{\infty} (x-\mu)^2 f(x)dx

となります.この値を 分散 といい,確率変数Xの分散をV[X]と書きます.よって

V[X] = E[(X-\mu)^2]

となります.また,分散の平方根を 標準偏差 といい,\sigmaと書きます.すると

\sigma = \sqrt{V[X]} = \sqrt{E[(X-\mu)^2]}, \quad \sigma^2 = V[X]

という関係になって,\sigma^2は分散ということになります.分散は偏差の平方の期待値つまり平均なので,確率変数Xが平均を中心に,どれくらいばらついているかを表しています.図6は分散のばらつきの関係を表しています.

2018-11-25_18h15_13

分散は

E[(X-\mu)^2] = \int_{-\infty}^{\infty} (x-\mu)^2 f(x)dx

なので,右辺を展開すると

\begin{aligned} E[(X-\mu)^2] &= \int_{-\infty}^{\infty} (x^2-2x\mu+\mu^2)f(x)dx \\ &= \int_{-\infty}^{\infty}x^2 f(x)dx - 2\mu\int_{-\infty}^{\infty}x f(x)dx + \mu^2\int_{-\infty}^{\infty} f(x)dx \\ &= E[x^2]-2\mu E[x] + \mu^2 \\ &= E[x^2]-2\mu^2 + \mu^2 \\ &= E[x^2]-\mu^2 \end{aligned}

よって

E[(X-\mu)^2] = E[X^2] - \mu^2 = E[X^2]-(E[X])^2

という関係が成り立ちます.

それではいくつかの分散を求めてみます.まずはサイコロ振りの場合,\mu=3.5なので

\begin{aligned} \sigma^2 &= (1-3.5)^2\times \frac{1}{6} + (2-3.5)^2\times \frac{2}{6} + (3-3.5)^2\times \frac{3}{6} \\ & \quad + (4-3.5)^2\times \frac{4}{6} + (5-3.5)^2\times \frac{5}{6} + (6-3.5)^2\times \frac{6}{6} \\ &= (2.5)^2\times\frac{1}{3} + (1.5)^2\times\frac{1}{3} + (0.5)^2\times\frac{1}{3} \\ &= \frac{8.75}{3} \Doteq 2.92 \end{aligned}

また,\sigma \Doteq \sqrt{2.92} \Doteq 1.71となります.

今度は期待値のところで出てきた次の確率密度関数

f(x) = \begin{cases} xe^{^x} & \quad (x\geq 0) \\ 0 & \quad (x < 0) \end{cases}

この確率分布の分散を求めると,\mu=2なので

\sigma^2 = \int_{0}^{\infty}(x-2)^2xe^{-x}dx = \int_{0}^{\infty} (x^3-4x^2+4x)e^{-x}dx

ここで,ガンマ関数

\Gamma(x) = \int_{0}^{\infty} t^{x-1}e^{-t}dt

を使うと

\sigma^2 = \Gamma(4)-4\Gamma(3)+4\Gamma(2) = 3!-4\cdot 2!+4\cdot 1! = 2

また,\sigma = \sqrt{2} \Doteq 1.41です.

それでは,一般的な指数分布の期待値と分散も求めてみます.指数分布の確率密度関数は

f(x) = \begin{cases} \lambda e^{-\lambda x} & \quad (x \geq 0) \\ 0 & \quad (x < 0) \end{cases}

です.まず期待値は

\mu = \int_{-\infty}^{\infty} xf(x)dx = \int_{0}^{\infty}x \lambda e^{-\lambda x}dx

ですので,部分積分を利用すると

\int_{0}^{\infty}x\lambda e^{-\lambda x}dx = \left[-\frac{x}{\exp(\lambda x)}\right]_{0}^{\infty} + \int_{0}^{\infty}e^{-\lambda x}dx

となり,この右辺の第1項の中の極限は

\lim_{x\to\infty}\frac{x}{\exp(\lambda x)} = \frac{\infty}{\infty}

となって不定形となるので,この場合,分母と分子それぞれの極限を求めて

\lim_{x\to\infty}\frac{x}{\exp(\lambda x)} = \lim_{x\to\infty}\frac{(x)'}{\{\exp(\lambda x)\}'} = \lim_{x\to\infty}\frac{1}{\lambda \exp(\lambda x)} = 0

よって

\mu = \int_{0}^{\infty}x\lambda e^{-\lambda x}dx = \int_{0}^{\infty}e^{-\lambda x}dx = \left[-\frac{\exp(-\lambda x)}{\lambda}\right]_{0}^{\infty} = \frac{1}{\lambda}

次にx^2の期待値を求めます.

E[x^2] = \int_{-\infty}^{\infty}x^2 f(x)dx = \int_{0}^{\infty}x^2 \lambda \exp(-\lambda x)dx

ですから,部分積分を使って

\begin{aligned} \int_{0}^{\infty}x^2 \lambda \exp(-\lambda x)dx &= \left[-\frac{x^2}{\exp(\lambda x)}\right]_{0}^{\infty} + \int_{0}^{\infty} x^2 \lambda \exp(-\lambda x)dx \\ &= 0 + \int_{0}^{\infty} x^2 \lambda \exp(-\lambda x)dx \\ &= \int_{0}^{\infty} x^2 \lambda \exp(-\lambda x)dx \end{aligned}

もう一度,部分積分を使うと

\begin{aligned} \int_{0}^{\infty} x^2 \lambda \exp(-\lambda x)dx &= \left[-\frac{2x}{\lambda\exp(-\lambda x)}\right]_{0}^{\infty} + 2\int_{0}^{\infty}\frac{\exp(-\lambda x)}{\lambda} dx \\ &= 2\left[-\frac{\exp(-\lambda x)}{\lambda^2}\right]_{0}^{\infty} = \frac{2}{\lambda ^2} \end{aligned}

よって,分散は

V[X] = E[x^2] - \mu^2 = \frac{2}{\lambda^2}-\left(\frac{1}{\lambda}\right)^2 = \frac{1}{\lambda^2}

となります.

📌 チェビシェフの不等式

確率変数と確率分布から,期待値と分散を求めることができました.ここで,確率分布が分からない場合でも,確率変数から平均値と分散を求めることができます.期待値は平均値と同じです.このとき,ある確率変数の確率について,どれくらいか見当をつけられないでしょうか.例えば,期末テストの数学の結果から平均と分散がわかったとして,平均点の\pm 10に入る確率はどのくらいになるかを考えてみます.

まず,分散を求める式は

\sigma^2 = \int_{-\infty}^{\infty}(X-\mu)^2 f(x)dx

(X-\mu)^2は平方なので常に正の値,そして確率密度関数f(x)f(x)\geq0なので,この積分は常に正の値となります.ここで,\mu-k\sigmaから\mu+k\sigmaまでの積分の値を取り除きます.つまり,積分領域を3つに分けて

\sigma^2 = \int_{-\infty}^{\mu-k\sigma}(X-\mu)^2 f(x)dx + \int_{\mu-k\sigma}^{\mu+k\sigma}(X-\mu)^2 f(x)dx + \int_{\mu+k\sigma}^{\infty}(X-\mu)^2 f(x)dx

この式から第2項の積分を取り除くと,元の値以下となるので不等号がつきます

\sigma^2 \geq \int_{-\infty}^{\mu-k\sigma}(X-\mu)^2 f(x)dx + \int_{\mu+k\sigma}^{\infty}(X-\mu)^2 f(x)dx

次に,(X-\mu)^2X\mu-k\sigma\mu+k\sigmaを代入すると

(\mu-k\sigma-\mu)^2 = k^2\sigma^2, \quad (\mu+k\sigma-\mu)^2 = k^2\sigma^2

よって

(X-\mu)^2 = k^2\sigma^2

になります.これを

\sigma^2 \geq \int_{-\infty}^{\mu-k\sigma}(X-\mu)^2 f(x)dx + \int_{\mu+k\sigma}^{\infty}(X-\mu)^2 f(x)dx

に代入すると,k^2\sigma^2が積分の外に出せるので

\sigma^2 \geq k^2\sigma^2\int_{-\infty}^{\mu-k\sigma} f(x)dx + k^2\sigma^2\int_{\mu+k\sigma}^{\infty} f(x)dx

となります.この右辺の第1項と第2項の積分はそれぞれ

\begin{aligned} P(X<\mu-k\sigma) &= \int_{-\infty}^{\mu-k\sigma} f(x)dx \\ P(X>\mu+k\sigma) &= \int_{\mu-k\sigma}^{\infty} f(x)dx \end{aligned}

と表せるので,絶対値記号を使ってまとめると

\sigma^2 \geq k^2\sigma^2 P(|X-\mu| \geq k\sigma)

そして,この両辺をk^2\sigma^2で割ると

\frac{1}{k^2}\geq P(|X-\mu|\geq k\sigma) \quad (k>0)

となります.これを チェビシェフの不等式 といいます.
この不等式は,ある確率変数Xが平均値\muから標準偏差\sigmak倍以上離れている確率は全体の\frac{1}{k^2}より小さいということを表しています.これを図8を見てみると,確率は色が付いた部分の面積に相当します.例えば,2k以上なら1/4以下,3k以上なら1/9以下になります.これは,確率分布がどのようなものでも成り立ちます.

2018-11-25_18h15_24

それでは,チェビシェフの不等式を使って,最初の問題を考えてみます.期末テストの数学の結果から平均と分散がわかったとして,平均点の\pm 10に入る確率はどのくらいになるかでした.ここで,平均は60,分散は484,標準偏差は22とすると,平均点の\pm 1050,70になるので,それを満たすk11/5となります.よって

P(|X-\mu|\leq \frac{11}{5}\sigma) \leq \frac{11}{5}^2 = 0.44

となって,50点から70点になる確率は44%以下であるということがわかります.この平均と分散のヒストグラムは次のようになっていました.

2018-11-25_18h15_31

50点から70点までの範囲を見てみると44%以下になっていることがわかります.このように,分布がわからなくても,平均と分散がわかっていれば,ある確率変数がどれくらいなのかがある程度当たりをつけることができます.

📌 2項分布

ある試行が別の試行に影響を及ぼさないことを独立試行,またはベルヌーイ試行といいました.独立試行のところで説明しましたが,もう一度簡単に見ていきます.ここで,サイコロを振ったときに1の目が出る確率は1/6で,それ以外は5/6となります.サイコロを2回振ったときに1の目が出る確率は独立試行なので,

\frac{1}{6}\times \frac{1}{6} = \frac{1}{36}

となります.それでは,5回振ったときに1の目が出る回数を確率変数Xとしたとき,1の目が出る回数が2回,つまりX(2)の確率を考えてみます.まず,5回サイコロを振ったときに1の目が出る組合せは,5個の異なるものから2個を取り出すことなので

{}_{5}C_{2} = \frac{5\cdot 4}{2} = 10

となり,10通りです.次に,1の目が出る回数が2回,それ以外が3回なので,この確率は

\left(\frac{1}{6}\right)^2 \left(\frac{5}{6}\right)^3

となります.よって,X(2)となる確率は

P(X=2) = 10\times\left(\frac{1}{6}\right)^2 \left(\frac{5}{6}\right)^3 = 10\times\frac{1}{36}\frac{125}{216} = \frac{625}{3888}

となります.一般に,ある事象Aの起こる確率P(A)=pが与えられているとき,n回独立試行を行って,Ax回起こる確率は

f(x) = {}_nC_r p^n(1-p)^{n-x}

となります.このような確率分布を 2項分布 または ベルヌーイ分布 といいます.2項分布はn回の独立試行回数と,事象Aの起こる確率をpとしたとき,Bin(n,p)と表します.サイコロの例だと5回振って1の目が出る確率が1/6なので,2項分布Bin(5,1/6)に従います.2項分布でnを固定したものとpを固定したものを図9に示しました.

2018-11-25_18h15_39

ここで,2項分布と2項定理の関係を見てみましょう.まず,2項分布は

f(x) = {}_nC_x p^n(1-p)^{n-x}

でした.q=1-pとおくと

f(x) = {}_nC_x p^n q^{n-x}

と変形できます.2項定理は

(a+b)^n = \sum_{x=0}^{n} {}_nC_x a^{n-x} b^{x}

です.ここで

\sum_{x=0}^{n} f(x) = f(0) + f(1) + \cdots + f(n)

という式を考えると,この右辺は

{}_nC_0 p^0 q^{n-0} + {}_nC_1 p^1 q^{n-1} + \cdots + {}_nC_n p^n q^{n-n}

となって,2項定理の式と一致するので

\sum_{x=0}^{n} f(x) = (p+q)^n

という関係がわかります.p+q=1なので

\sum_{x=0}^{n} f(x) = 1

となります.これはf(x)が確率密度関数の性質を持っているということです.

それでは,2項分布の平均と分散を求めてみます.2項分布の確率変数は離散なので,平均は

\mu = \sum_{x=0}^{n} xf(x)

f(x)を置き換えると

\mu = \sum_{x=0}^{n} x {}_nC_x p^x q^{n-x}

これを変形すると

\mu = \sum_{x=0}^{n} x\frac{n!}{x!(n-x)!} p^x q^{n-x}

となります.x=0のとき,この項は0になるので

\mu = \sum_{x=1}^{n} x\frac{n!}{x!(n-x)!} p^x q^{n-x}

分母のx!x(x-1)!とすると,

\mu = \sum_{x=1}^{n} x\frac{n!}{x(x-1)!(n-x)!} p^x q^{n-x} = \sum_{x=1}^{n} \frac{n!}{(x-1)!(n-x)!} p^x q^{n-x}

n!=n(n-1), \quad p^x=p\cdot p^{x-1}, \quad n-x=(n-1)-(x-1)と変形すると

\mu = \sum_{x=1}^{n} np \frac{(n-1)!}{(x-1)!\{(n-1)-(x-1)\}!} p^{x-1} q^{(n-1)-(x-1)}

ここで,

t = x-1 \qquad m = n-1

とおくと

\mu = \sum_{t=0}^{m} np \frac{m!}{t!(m-t)!} p^{t} q^{t-m} = np \sum_{t=0}^{m} {}_mC_t p^{t} q^{t-m}

npの後ろの部分が2項定理のかたちをしているので

\mu = np(p+q)^m

p+q=1だから

\mu = np

となります.続いて分散は

\sigma^2 = E[X^2] - \mu^2

なので,

E[X^2] = \sum_{x=0}^{n} x^2 f(x) = \sum_{x=0}^{n} x^2 {}_nC_x p^x q^{n-x}

平均と同じように変形して

t = x-1 \qquad m = n-1 \qquad \therefore x=t+1

とおくと

\begin{aligned} E[X^2] &= np \sum_{t=0}^{m} (t+1) \frac{m!}{t!(m-t)!} p^{t} q^{t-m} \\ &= np \sum_{t=0}^{m} t \frac{m!}{t!(m-t)!} p^{t} q^{t-m} + np \sum_{t=0}^{m} \frac{m!}{t!(m-t)!} p^{t} q^{t-m} \\ &= np(mp) + np\cdot 1 \\ &= n(n-1)p^2+np \end{aligned}

よって

\sigma^2 = E[X^2]-\mu^2 = n(n-1)p^2+np-(np)^2 = np(1-p)
\therefore \sigma^2 = np(1-p)

2項分布の平均と分散が求まりました.ここで,X/n=tという新しい確率変数を考えます.f(x)が2項分布Bin(n,0.2)に従うとき,tの分布の分布は図10のようになります.

2018-11-25_18h15_46

この図からnを大きくしていくと,X/n=0.2のまわりに分布が集中していくことがわかります.Xの平均はnpなので,X/nの平均はpとなって,nによらずに一定になります.また,Xの分散はnp(1-p)なので,X/nの分散はp(1-p)/nとなって,nが大きくなるとp0に収束していき,中心付近に集中します.ここで,チェビシェフの不等式

\frac{1}{k^2}\geq P(|X-\mu|\geq k\sigma) \quad (k>0)

を利用して,\mu = np, \quad \sigma = \sqrt{np(1-p)}とすると,任意の正の数kに対して

P(|X-np|\leq k\sqrt{np(1-p)}) \geq 1-\frac{1}{k^2}

が成り立ちます.確率P1を超えないので

1 \geq P(|X-np|\leq k\sqrt{np(1-p)}) \geq 1-\frac{1}{k^2}

カッコ内の両辺をnで割ると

1 \geq P\left(|t-p|\leq k\sqrt{\frac{p(1-p)}{n}}\right) \geq 1-\frac{1}{k^2}

この式でkを大きくしても,\sqrt{n}をそれよりも大きくすれば,k\sqrt{\frac{p(1-p)}{n}}はいくらでも小さくすることができます.ここで

\epsilon = k\sqrt{\frac{p(1-p)}{n}}

とおくと,次のように変形できます

1 \geq P\left(p-\epsilon \leq t \leq p+\epsilon\right) \geq 1-\frac{1}{k^2}

kを十分大きくすれば,右辺はほとんど1に等しくなり,nk^2よりも十分大きくすれば,\epsilonは非常に小さくなって,tpに近づいていきます.これは,試行回数nを増やすほど,その事象の起こる割合は一定の値pに近づくということを意味しています.この性質を 大数の法則 といいます.チェビシェフの不等式はどの確率分布でも成り立ち,大数の法則は統計的確率の

P(A) = p = \lim_{n\to\infty}\frac{r}{n}

の根拠となっています.

📌 多項分布

サイコロを振ったときに1の目が出る確率と1以外の目が出る確率は2項分布に従います.では,5回サイコロを振った場合に1の目がでる回数を1回,2の目が出る回数を2回,3の目がでる回数を2回というように,3つ以上の結果が起こる確率を求めます.各目が出る確率をp_1,p_2,p_3,p_4,p_5,p_6とすると,どの目も1/6であり,

p_1 + p_2 + p_3 + p_4 + p_5 + p_6 = 1

となります.この場合,(p_1+p_2+p_3+p_4+p_5+p_6)^5で,p_1を1個,p_2を2個,p_3を2個選ぶ組合せの数で確率が決まるので多項定理

(a_1 + a_2 + \cdots + a_n)^n = \sum \frac{n!}{n_1! n_2! \ldots n_m!} a_1^{n_1} a_2^{n_2} \ldots a_m^{n_m}
(n_1 + n_2 + \cdots + n_m = n)

を利用して,n_1=1, n_2=2, n_3=2, n_4=n_5=n_6 = 0, n=5とすると

\frac{5!}{1!2!2!0!0!0!} \left(\frac{1}{6}\right)^1 \left(\frac{1}{6}\right)^2 \left(\frac{1}{6}\right)^2 \left(\frac{1}{6}\right)^0 \left(\frac{1}{6}\right)^0 \left(\frac{1}{6}\right)^0 \Doteq 0.0038

となります.一般に,1回の試行で起こりえる結果がm通りあり,それぞれの起きる確率をp_1,p_2,\ldots,p_mとし

p = p_1 + p_2 + \cdots + p_m = 1

という関係であるとき,n回の独立試行を行い,i番目の結果の起こる回数を確率変数X_iとしたとき

X_1 = n_1, X_2 = n_2, \ldots, X_m = n_m

となる確率は,確率密度関数

f(n_1,n_2,\ldots,n_m) = \frac{n!}{n_1!n_2!\cdots n_m!} p_1^{n_1} p_2^{n_2}\cdots p_m^{n_m}

に従います.この確率分布を 多項分布 といいます.また,確率変数X_iはそれぞれ2項分布なので,

\mu_i = np_i, \quad \sigma_i^2 = np_i(1-p_i)

となります.

📌 ポアソン分布

あるゲームにおいて,宝箱から貴重品を手に入れる確率が1/100だとします.貴重品が手に入る数を確率変数とすると,これは2項分布に従いますから,手に入る貴重品の数は

p(X=x) = f(x) = {}_nC_x p^x (1-p)^{n-x}

となります.よって,貴重品が手に入らない確率は

f(0) = {}_{100} C_0 \left(\frac{1}{100}\right)^0 \left(1-\frac{1}{100}\right)^{100} = \left(\frac{99}{100}\right)^{100} \Doteq 0.366

貴重品が1個手に入る確率は

f(1) = {}_{100} C_1 \left(\frac{1}{100}\right)^1 \left(1-\frac{1}{100}\right)^{99} = \left(\frac{99}{100}\right)^{99} \Doteq 0.370

同様に

f(2) \Doteq 0.185, \quad f(3) \Doteq 0.061, \quad f(4) \Doteq 0.015, \quad f(5) \Doteq 0.003

となって,x3,4,5,\ldotsと大きくなると,その確率は急速に0に近づいていきます.このようにめったに起こらない事象に対して,何回も試行を行うときには,2項分布を近似した分布を考えることができます.2項分布

f(x) = {}_nC_x p^x (1-p)^{n-x} = \frac{n!}{x!(n-x)!}p^x(1-p)^{n-x}

を展開して

f(x) = \frac{n!}{x!(n-x)!}p^x(1-p)^{n-x} = \frac{n(n-1)(n-2)\cdots(n-x+1)}{x!} p^x(1-p)^{n-x}

\mu=npだからp=\mu/nを代入して

f(x) = \frac{n(n-1)(n-2)\cdots(n-x+1)}{x!} \left(\frac{\mu}{n}\right)^x \left(1-\frac{\mu}{n}\right)^{n-x}

次のように変形して

f(x) = \frac{\mu^x}{x!}\cdot 1 \cdot \left(1-\frac{1}{n}\right) \left(1-\frac{2}{n}\right) \cdots \left(1-\frac{x-1}{n}\right) \left(1-\frac{\mu}{n}\right)^{n-x}

最後の項は2つの式に分けて

f(x) = \frac{\mu^x}{x!}\cdot 1 \cdot \left(1-\frac{1}{n}\right) \left(1-\frac{2}{n}\right) \cdots \left(1-\frac{x-1}{n}\right) \left(1-\frac{\mu}{n}\right)^{-x} \left(1-\frac{\mu}{n}\right)^{n}

ここでn\to\inftyの極限を考えると,

\left(1-\frac{1}{n}\right) \left(1-\frac{2}{n}\right) \cdots \left(1-\frac{x-1}{n}\right), \quad \left(1-\frac{\mu}{n}\right)^{-x}

はすべて1になります.最後の項は

\lim_{n\to\infty}\left(1-\frac{\mu}{n}\right)^n = \lim_{n\to\infty}\left\{ \left(1-\frac{\mu}{n}\right)^{-\frac{n}{\mu}} \right\}^{-\mu}

と変形し,p=\mu/nだから

\lim_{n\to\infty}\left(1-\frac{\mu}{n}\right)^n = \lim_{n\to\infty}\left\{ \left(1-p\right)^{-\frac{1}{p}} \right\}^{-\mu}

p=-1/mとおくと

\lim_{n\to\infty}\left(1-\frac{\mu}{n}\right)^n = \lim_{n\to\infty}\left\{ \left(1-\frac{1}{m}\right)^{m} \right\}^{-\mu}

ここでeの公式

e = \lim_{n\to\infty}\left(1+\frac{1}{n}\right)^n

から

\lim_{n\to\infty}\left(1-\frac{\mu}{n}\right)^n = e^{-\mu}

となって,結局

f(x) = \frac{\mu^x}{x!}e^{-\mu}

となります.この分布を ポアソン分布 といい,上記の式はポアソン分布の確率密度関数です.ポアソン分布は平均\mu=npの2項分布において,n\to\inftyの極限をとっているので,試行回数nが大きいときに対応し,pの極限は0になります.平均は\mu=npでポアソン分布はP(\mu)と表します.ポアソン分布のグラフを図11に示します.

2018-11-25_18h15_56

分散は2項分布の分散\sigma^2=np(1-p)の極限なので,p=\mu/nを代入して

\sigma^2 = \lim_{n\to\infty}np(1-p) = \lim_{n\to\infty}\mu\left(1-\frac{\mu}{n}\right) = \mu

つまり,ポアソン分布の分散\sigma^2は平均\muと等しくなります.

📌 超幾何分布

2項分布や多項分布,ポアソン分布では独立試行のため,複数の試行を行っても,その結果が他の試行に影響することはありません.では,試行すると確率が変わる場合はどうなるでしょうか.次のような場合を考えてみます.箱の中に赤い玉が2個,白い玉が3個入っています.このとき,3個の玉を箱から取り出したときに,赤い玉が2個,白い玉が1個になる確率を求めます.条件を満たす組合せは「赤赤白」「赤白赤」「白赤赤」の3通りです.すべての場合の数は{}_5C_3なので

P = \frac{3}{{}_5 C_3} = \frac{3}{10}

となります.これは,赤い玉2個から2個を選ぶ場合の数{}_2C_2と,白い玉3個から1個を選ぶ場合の数{}_3C_1の積が起こり得る場合の数なので

{}_2 C_2 \times {}_3 C_1 = 3

と計算することができます.これを一般に考えると,赤い玉がm個,白い玉がn個入った箱があるとします.この箱から玉をn個取り出したときに,赤い玉がk個含まれる確率を求めると,すべての事象の数はm+n個からr個を選ぶ場合の数なので

{}_{m+n} C_r

次に,確率を求める事象は,赤い玉m個の中からk個を,白い玉n個からr-k個を選ぶ場合の数なので

{}_m C_k \times {}_n C_{r-k}

となって,赤い玉を取り出す数を確率変数X=xとすれば

f(x) = \frac{{}_m C_x \times {}_n C_{r-x}}{{}_{m+n} C_r}

で与えられます.k0からrまで変化し

\sum_{x=0}^{r} f(x) = 1

という性質を持っているので,これは確率密度関数です.この確率分布を 超幾何分布 といいます.

これまでの場合は,赤い玉と白い玉の2種類でしたが,それ以上の場合を考えることもできます.いま,箱の中に赤い玉がa個,白い玉がb個,青い玉がc個入っているとします.その中からn個の玉を取り出したときに,赤い玉がn_1個,白い玉がn_2個,青い玉がn_3個含まれる確率を求めます.まず,

n = n_1 + n_2 + n_3

を満たす必要があります.そして,すべての場合の数はa+b+c個からn個を選ぶので

{}_{a+b+c} C_{n}

となります.つぎに,赤い玉n_1個,白い玉n_2個,青い玉n_3個含まれる場合の数は

{}_a C_{n_1} \times {}_b C_{n_2} \times {}_c C_{n_3}

となって,求める確率は

\frac{{}_a C_{n_1} \times {}_b C_{n_2} \times {}_c C_{n_3}}{{}_{a+b+c} C_{n}}

となります.これは玉の種類が増えても同様に計算することができます.

📌 幾何分布

次のような場合を考えます.サイコロを3回振ったときに,1の目が1回でも出てくる確率はどれくらいでしょうか.これは

  1. A:1回目に1の目が出る
  2. B:1回目は1以外の目で,2回目に1が出る
  3. C:1回目と2回目は1以外の目で,3回目に1が出る

それぞれの確率を計算すると

P(A) = \frac{1}{6}, \quad P(B) = \frac{5}{6}\times \frac{1}{6} = \frac{5}{36}, \quad P(C) = \left(\frac{5}{6}\right)^2 \times \frac{1}{6} = \frac{25}{216}

求める確率はこれらの和の事象なので

\frac{1}{6} + \frac{5}{36} + \frac{25}{216} = \frac{36+30+25}{216} = \frac{91}{216} \Doteq 0.42

となります.もし,4回目に初めて1が出る確率を考えると

\left(\frac{5}{6}\right)^3 \times \frac{1}{6}

となることがわかります.同様にr回目に初めて1が出る確率は

\left(\frac{5}{6}\right)^{r-1} \times \frac{1}{6}

となります.一般に,独立試行を行ったときに事象Aの起こる確率をpとすると,事象Aが最初に発生するまでの回数x=1,2,3,...を確率変数とすれば

f(x) = p(1-p)^{x-1}

で得られます.これは試行を繰り返せばいずれ事象Aが起きることになるので,

\sum_{x=1}^{\infty} f(x) = 1

の性質を持っていますから,確率密度関数です.この確率分布を 幾何分布 といいます.この確率密度関数は初項がpで,公比が1-pの等比数列の形をしています.幾何分布は,時間を1,2,3,\cdotsと離散的に考えるとき,初めてAが起きるまで待つ時間の確率分布と考えることができ, 待ち時間分布 とも呼ばれます.

次に幾何分布の平均と分散を求めてみます.平均は

\mu = \sum_{x=1}^{\infty} xf(x) = \sum_{x=1}^{\infty} xp(1-p)^{x-1} = p \sum_{x=1}^{\infty} x(1-p)^{x-1}

ここで1/(1-x)のマクローリン展開を考えると

\frac{1}{1-x} = 1 + x + x^2 + \cdots = \sum_{k=0}^{\infty}x^k

この両辺を微分すると

\frac{1}{(1-x)^2} = \sum_{k=1}^{\infty}kx^{k-1}

x=1-p, \quad k=xとおくと

\frac{1}{(1-(1-p))^2} = \sum_{x=1}^{\infty}x(1-p)^{x-1}

この右辺は幾何分布の平均の式

\mu = p \sum_{x=1}^{\infty} x(1-p)^{x-1}

の数列の部分と一致するので

\mu = p\times \frac{1}{(1-(1-p))^2} = \frac{p}{p^2} = \frac{1}{p}

別の計算方法として,無限和を求めるやり方があります.平均の式は

\mu = \sum_{x=1}^{\infty} xp(1-p)^{x-1}

右辺は,(1-p)を掛けたものを引くと,係数xが消え,それは確率密度関数と同じなので1になります.

\sum_{x=1}^{\infty} xp(1-p)^{x-1} - (1-p)\sum_{x=1}^{\infty} xp(1-p)^{x-1} = 1

整理すると

\begin{aligned} (1-(1-p))\sum_{x=1}^{\infty} xp(1-p)^{x-1} &= 1 \\ \sum_{x=1}^{\infty} xp(1-p)^{x-1} &= \frac{1}{p} \end{aligned}

次に分散を求めます.この分散は

\sigma^2 = E[X^2]-\mu^2

の式を使います.また

E[X^2] = E[X(X-1)] + E[X]

という関係を利用するので,E[X(X-1)]をまず求めます.そのために,平均を求めたときに出てきた次の式を使います.

\frac{1}{(1-x)^2} = \sum_{k=1}^{\infty}kx^{k-1}

この両辺をもう一度微分します.

\frac{2}{(1-x)^3} = \sum_{k=1}^{\infty}k(k-1)x^{k-2}

この両辺にxをかけて,x=1-p, \quad k=xとおくと

\begin{aligned} \frac{2x}{(1-x)^3} &= \sum_{k=1}^{\infty}k(k-1)x^ {k-1} \\ \frac{2(1-p)}{(1-(1-p))^3} &= \sum_{x=1}^{\infty}x(x-1)(1-p)^ {x-1} \\ \frac{2(1-p)}{p^3} &= \sum_{x=1}^{\infty}x(x-1)(1-p)^ {x-1} \end{aligned}

よって

E[X(X-1)] = p \sum_{x=1}^{\infty}x(x-1)(1-p)^{x-1} = \frac{2(1-p)}{p^2}

結局,分散は

\begin{aligned} \sigma^2 &= E[X^2]-\mu^2 \\ &= E[X(X-1)]+E[X]-\mu^2 \\ &= \frac{2(1-p)}{p^2} + \frac{1}{p} + \left(\frac{1}{p}\right)^2 \\ &= \frac{2(1-p)-1+p}{p^2} \\ &= \frac{1-p}{p^2} \end{aligned}

幾何分布を使った例を見る前に,この累積分布関数を求めます.幾何分布は離散の確率分布なので,累積密度関数は

F(x) = P(X\leq x) = \sum_{k=1}^{x}f(x) = \sum_{k=1}^{k}p(1-p)^{k-1} = p\sum_{k=1}^{x}(1-p)^{k-1}

等比数列の和Sは,初項a,公比r,項数nとすると

S = \frac{a(r^2-1)}{r-1} = \frac{a(1-r^n)}{1-r}

計算すると

\sum_{k=1}^{x}(1-p)^{k-1} = \frac{1-(1-p)^x}{p}

よって

F(x) = p\sum_{k=1}^{x}(1-p)^{k-1} = p \frac{1-(1-p)^x}{p} = 1-(1-p)^x

となります.
それでは,累積分布関数を使って最初のサイコロの例の確率を計算してみると

F(x) = 1-(1-p)^x = 1-\left(1-\frac{1}{6}\right)^3 = 1-\frac{125}{216} = \frac{91}{216} \Doteq 0.42

となって一致します.今度は別の事例を見てみましょう.あるスマホゲームでガチャがあります.このガチャでSSRカードが出る確率はどのようになっているか,ガチャを回した回数との関係を図12に示します.

2018-11-25_18h16_06

横軸がガチャを回した回数,縦軸がSSRカードを最初に引く確率,pがSSRカードの出る確率です.

📌 ガウス積分

正規分布(ガウス分布)をはじめる前に,ガウス積分について見ていきます.ガウス積分は以下の式

f(x) = e^{-x^2}

の形をした関数を-\inftyから\inftyまで積分した値です.ここで,この積分の値をIとすると

I = \int_{-\infty}^{\infty}e^{-x^2}dx

これとまったく同じ式でxyに置き換えたものを考え

I = \int_{-\infty}^{\infty}e^{-y^2}dy

これらの積を求めると

I^2 = \int_{-\infty}^{\infty}e^{-x^2}dx \cdot \int_{-\infty}^{\infty}e^{-y^2}dy

まとめると

I^2 = \int_{-\infty}^{\infty} \int_{-\infty}^{\infty}\exp(-(x^2+y^2))dxdy

重積分の形になります.この積分は図14に示すように

z = exp(-(x^2+y^2))

という関数に体積になっています.

2018-11-25_18h16_12

この重積分を計算するために,直交座標(x,y)から極座標(r,\theta)に変数変換します.すると

x^2 + y^2 = r^2

となって,微分係数は

dxdy \to rdrd\theta

となります.これは直交座標での微小面積dxdyが,極座標での微小面積(rdrd\theta)に変換されています.また,積分範囲は

-\infty \leq x \leq \infty, \quad -\infty \leq y \leq \infty \quad \to \quad 0 \leq r \leq \infty, \quad 0 \leq \theta \leq 2\pi

に変わります.よって

I^2 = \int_{0}^{2\pi} \int_{0}^{\infty} \exp(-r^2)rdrd\theta

となります.まず

\int_{0}^{\infty}\exp(-r^2)rdr

の積分を求めるには,置換積分を使ってt=r^2, \quad dr=dt/2rとすると

\int_{0}^{\infty}\exp(-r^2)rdr = \int_{0}^{\infty}\frac{1}{2}\exp(-t)dt = \left[-\frac{1}{2}\exp(-t)\right]_{0}^{\infty} = \frac{1}{2}

よって

I^2 = \int_{0}^{2\pi}\frac{1}{2}d\theta = \left[\frac{\theta}{2}\right]_{0}^{2\pi} = \pi
\therefore I = \pm \sqrt{\pi}

ただし,Iの値は正なので

\int_{-\infty}^{\infty}e^{-x^2}dx = \sqrt{\pi}

となります.

以降はガウス積分の類似した形のものをいくつか見ていきます.まずは

\int_{-\infty}^{\infty} e^{-ax^2}dx \quad (a>0)

これはt=\sqrt{a}x, \quad dt=\sqrt{a}dxとおくと

\int_{-\infty}^{\infty} e^{-t^2}\frac{1}{\sqrt{a}}dt = \frac{1}{\sqrt{a}} \int_{-\infty}^{\infty} e^{-t^2}dt

右辺の積分はガウス積分なので\sqrt{\pi}となるから

\int_{-\infty}^{\infty} e^{-ax^2}dx = \frac{\sqrt{\pi}}{\sqrt{a}} = \sqrt{\frac{\pi}{a}}

となります.次に

\int_{0}^{\infty} e^{-ax^2}dx \quad (a>0)

これはe^{-ax^2}のグラフ(図14)を見てください.

2018-11-25_18h16_17

y軸に対してx=0のところで軸対称になっていることがわかります.このような性質をもつ関数を 偶関数 といいます.つまり,e^{-ax^2}は偶関数です.ここで積分範囲の下限が-\inftyから0に変わったということは,グラフ上で色が付いている面積の半分ということになります.よって

\int_{0}^{\infty} e^{-ax^2}dx = \frac{1}{2}\sqrt{\frac{\pi}{a}}

となります.次は

\int_{0}^{\infty}x e^{-ax^2}dx \quad (a>0)

そのまま,積分を計算すると

\int_{0}^{\infty}x e^{-ax^2}dx = \left[-\frac{1}{2a}e^{-ax^2}\right]_{0}^{\infty} = -\left(-\frac{1}{2a}\right) = \frac{1}{2a}

となります.最後に

\int_{-\infty}^{\infty}x^{2n} e^{-ax^2}dx, \qquad \int_{0}^{\infty}x^{2n+1} e^{-ax^2}dx \quad (a>0)

それぞれ

\begin{aligned} \int_{-\infty}^{\infty}x^{2n} e^{-ax^2}dx &= \frac{n!}{2a^{n+1}} \\ \int_{-\infty}^{\infty}x^{2n+1} e^{-ax^2}dx &= \frac{(2n-1)!!}{2^n a^n}\sqrt{\frac{\pi}{a}} \end{aligned}

となります.

📌 正規分布

2項分布でnを大きくしていくと,分布が特定の形になっていくことが知られています.また,2項分布のところでt=X/nの分布はnを大きくしていくと,大数の法則によって,pのまわりに集中していくことがわかりました.それぞれ図で確認してみると

2018-11-25_18h16_23

このようにnを大きくしていくと,その分布は

f(x) = e^{-x^2}

または

f(x) = e^{-ax^2} \quad (a>0)

という分布に近づいていきます.これを ガウス関数 といいます.この関数のグラフを図16に示します.

2018-11-25_18h16_31

ガウス関数の特性を見ていくと,まず,x=0を代入すると

f(0) = e^0 = 1

となります.次に

f(-x) = e^{-(-x)^2} = e^{-x^2} = f(x)

の性質を持っているので偶関数です.よって,y軸に関して左右対称になります.ガウス関数を微分すると

f'(x) = -2x e^{-x^2}

x<0では単調増加,x>0では単調減少なので,xの絶対値が増えていくと,f(x)の値は小さくなっていきます.また,極限

\lim_{x\to\pm\infty}e^{-x^2} = 0

よって,中心から無限遠で0になります.

次にe^{-ax^2}aを変化させたときのグラフを図17に示します.

2018-11-25_18h16_37

aの値を大きくしていくと,より中心に集中していくことがわかります.また,aの値を小さくすれば,分布が拡がっていくこともわかります.つまり,aは分布の大きさを表しています.

ここで,ガウス関数を確率密度関数に変換します.まず,

\int_{-\infty}^{\infty} e^{-ax^2} dx = 1

を満たす必要があります.ガウス積分から

\int_{-\infty}^{\infty} e^{-ax^2} dx = \sqrt{\frac{\pi}{a}}

となるので

f(x) = \frac{\sqrt{a}}{\sqrt{\pi}}e^{-ax^2}

と正規化します.また,このaは分布の大きさですが,分布のばらつきを表すものに分散があります.そこで

2\sigma^2 = \frac{1}{a} \quad \therefore a=\frac{1}{2\sigma^2}

と置き換えます.すると

f(x) = \frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{x^2}{2\sigma^2}} = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{x^2}{2\sigma^2}}

となります.この関数はx=0を中心とした分布ですが,図15でわかるように中心は移動します.そこで中心がどの位置になるかというと平均\muになります.この対応をすると

f(x) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}

この確率密度関数の分布を ガウス分布 または 正規分布 といいます.この分布は平均\muと分散\sigma^2によって形が決まるので,正規分布をN(\mu,\sigma^2)と表します.

平均\mu=0としたとき,分散\sigma^2の値によって正規分布のグラフがどう変化するかを図18に示します.

2018-11-25_18h16_43

正規分布に従った確率変数Xがあるとき,ある範囲(a\leq X \leq b)の確率は

P(a\leq X \leq b) = \int_{a}^{b} \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}dx

で求めることができます.この計算をするために,この式を変形していきます.まず,変数変換 t = x-\mu, \quad dt = dxをすると

\int_{a-\mu}^{b-\mu} \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{t^2}{2\sigma^2}}dt

として,中心の位置を0にします.さらに,次の変数変換をすると

z = \frac{t}{\sigma} \qquad dz = \frac{dt}{\sigma}

積分範囲を

\alpha = \frac{a-\mu}{\sigma}, \qquad \beta = \frac{b-\mu}{\sigma}

とおくと

\int_{\alpha}^{\beta} \frac{1}{\sqrt{2\pi}}e^{-\frac{z^2}{2}}

これは\sigma=1にしています.この2回の変換をまとめると

z = \frac{x-\mu}{\sigma}

とすることができます.この変数に対応した確率密度関数は

f(z) = \frac{1}{\sqrt{2\pi}} e^{-\frac{z^2}{2}}

となります.これは平均\mu=0,分散\sigma^2=1に相当します.つまり,この分布はN(0,1)であり,このような正規分布を 標準正規分布 といいます.また,この変換のことを標準化変換,zを標準化変数と呼ぶこともあります.

すべての正規分布は

z = \frac{x-\mu}{\sigma}

という変数変換をすると標準正規分布となり,

x = \sigma z + \mu

という逆変数変換をすると,元の正規分布に戻すことができます.積分を計算するときは,標準正規分布に変換して,標準正規分布表を使う方法や,指数関数のべき級数展開

\int_{0}^{a} e^{-ax^2}dx = a-\frac{1}{3\cdot 1}a^3 +\frac{1}{5\cdot 2!}a^5 -\frac{1}{7\cdot 3!}a^7 +\frac{1}{9\cdot 4!}a^9 - \cdots

を利用する方法があります.また,正確な値が必要でなければ累積分布関数の近似式を使うこともできます.

F(x) = \frac{1}{1+\exp(-0.07056x^3-1.5976x)}

この関数の誤差は0.0014以下で

F(x) = \frac{1}{1+\exp(-1.7x)}

こちらは誤差が0.01以下になります.a\leq x \leq bの範囲を求める場合はF(b)-F(a)で求められます.1つ目の近似式は一般の正規分布でも同じ誤差になります.

F(x) = \frac{1}{1+\exp\left(-0.07056\left(\frac{x-\mu}{\sigma}\right)^3-1.5976\left(\frac{x-\mu}{\sigma}\right)\right)}

正規分布N(\mu,\sigma^2)の性質として,一般に確率変数は平均\muから\pm\sigmaの間に68\%\pm2\sigmaの間に95\%\pm3\sigmaの間に99.7\%以上存在します.

2018-11-25_18h16_50

例えば,\mu\pm 3\sigma以外のところ(0.03\%)は誤差として扱うというように,区切りとして\mu\pm\sigma, \quad \mu\pm 2\sigma, \quad \mu\pm 3\sigmaがよく使われます.

ここで,はじめに言ったことを振り返って考えてみると,2項分布のnを大きくして標準化すれば標準正規分布N(0,1)に近づいていくということでした.実は,2項分布だけでなく,平均が\mu,分散が\sigma^2である他の分布に従っている確率変数X_1,X_2,\ldots,X_nの平均を\overline{X}として

Z_n = \frac{\sqrt{n}}{\sigma}(\overline{X}-\mu)

とすると,nを大きくしたとき,Z_nの分布は標準正規分布に近づいていくことがわかっています(ただし,すべての分布で成立するとは限りません).これを 中心極限定理 といいます.

📌 モーメント

ここでは詳しい説明をせずに軽く見ていくことにします.

f(x)を確率密度関数として,\phi(X)を確率変数Xの関数とします.\phi(X)の期待値E[\phi(X)]

E[\phi(X)] = \int_{-\infty}^{\infty} \phi(x) f(x) dx

で与えられます.離散でも同じように考えることができます.
このとき,

E[X] = \int_{-\infty}^{\infty}xf(x)dx, \qquad E[X^2] = \int_{-\infty}^{\infty}x^2f(x)dx, \qquad E[X^3] = \int_{-\infty}^{\infty}x^3f(x)dx

となり,\phi(X) = X^k (k=0,1,2,\ldots)とすると,一般式は

E[X^k] = \int_{-\infty}^{\infty}x^kf(x)dx

で与えられます.これを k次のモーメント といいます.よって,1次のモーメント

E[X] = \int_{-\infty}^{\infty}xf(x)dx = \mu

は平均であり,

E[(X-\mu)^2] = \int_{-\infty}^{\infty}(X-\mu)^2f(x)dx = \sigma^2

は平均のまわりの2次モーメントといいます.また\mu=0とすれば,分散になります.そして

E[(X-\mu)^3] = \int_{-\infty}^{\infty}(X-\mu)^3f(x)dx = \gamma

は平均のまわりの3次モーメントで, 歪度 といい,分布のゆがみの大きさです.さらに4次モーメントは 尖度 といい,中心の周囲の部分の尖り具合を表します.

ここで,

\phi(X) = e^{tx}

としたとき,

M(X) = E\left[e^{tx}\right]

モーメント母関数 といいます.指数関数の級数展開

e^x = 1+x+\frac{1}{2!}x^2 + \frac{1}{3!}x^3 + \cdots + \frac{1}{n!}x^n+\cdots

から,e^{tx}を考えると

e^{tx} = 1+tx+\frac{1}{2!}t^2x^2 + \frac{1}{3!}t^3x^3 + \cdots + \frac{1}{n!}t^nx^n+\cdots

と展開できます.この関数の期待値は

E\left[e^{tx}\right] = 1 + E[x]t+\frac{1}{2!}E[x^2]t^2 + \frac{1}{3!}E[x^3]t^3 + \cdots + \frac{1}{n!}E[x^n]t^n+\cdots

となります.これをtで微分すると

\left(E\left[e^{tx}\right]\right)' = E[x]+\frac{1}{2!}E[x^2]t + \frac{1}{3!}E[x^3]t^2 + \cdots + \frac{1}{(n-1)!}E[x^n]t^{n-1}+\cdots

これにt=0を代入するとE[x]が求まります.同様に,tでまた微分してt=0を代入するとE[x^2]が得られます.つまり,モーメント母関数を微分すれば,k次のモーメントを求めることができるので,モーメント母関数という名前になっています.一般にk次モーメントは

E[x^k] = M^{(k)}(0)

で与えられます.

📌 最後に

いかがだったでしょうか.なるべくわかりやすく書いたつもりですが,わかりづらかったところがあったかもしれません.また,知識不足で間違っていたり,説明足らずなところもあったかもしれません.気づいたところがあれば気軽にご連絡してもらえると助かります.内容についてはまだまだ足りておらず,取り上げなかった分布も多く,相関やランダムウォーク,マルコフ過程とかに全然到達できませんでした.また,CGということでレンダリングで使われている確率分布(Phong分布,Beckmann分布,GGX分布,GTR分布,AGC分布,SGD分布など)にも触れられませんでした.まあ,これらは次の機会ということで.
少しでも誰かの参考になれば幸いです.

📌 参考文献

  • 村上雅人「なるほど確率論」海鳴社,2003
  • 村上哲哉「確率」ファーラム・A,1989
  • 薩摩順吉「確率・統計」岩波書店,1989
  • 東京大学教養部統計学教室「統計学入門」東京大学出版会,1991
  • 竹内淳「高校数学でわかる統計学」講談社,2012