📈

統計学のメモ #2 確率分布

2022/01/10に公開

統計学

確率

tech

統計学に入門したので備忘録をまとめていきます。
この記事では、確率の基本用語とさまざまな確率分布について書きます。

標本空間、事象

試行 / trial
- ある特定の条件のもとで繰り返し行うことができ、その結果が偶然に決まる実験
- e.g. サイコロを一回投げる行為
標本点 / sample point
- $\omega$
- 試行において起こり得る個々の結果
- e.g. サイコロを一回投げて出る目の標本点
  - 1, 2, 3 ... 6の目が出る
標本空間 / sample space
- $\omega \in \Omega$
- すべての標本点からなる集合
- e.g. サイコロを一回投げて出る目の標本空間
  - {1, 2, 3, 4, 5, 6}
事象 / event
- 試行において起こり得る結果。標本空間の部分集合。
- e.g. サイコロを一回投げて、奇数の目が出る事象
  - {1, 3, 5}
根元事象 / elementary event
- それ以上分けることができない、標本点が一つの事象。
- e.g. サイコロを一回投げて出る目の根元事象
  - {1}, {2}, {3}, {4}, {5}, {6}

その他の事象	記号	意味
全事象	$\Omega$	標本空間全体
空事象	$\emptyset$	何も起こらない
余事象	$A^{c}$	Aは起こらない
積事象	$A \cap B$	AとBが同時に起こる
和事象	$A \cup B$	少なくともAかBの一方が起こる
排反事象	$A \cap B=\emptyset$	AとBは同時に起こらない

確率変数、期待値、分散

確率変数 / random variable
- ある現象を観測する際に、どのような値をとるか決まっていないが、その確率を割り当てられる変数
- 大文字で $X, Y, Z$ と表す
- 確率変数がとる値は小文字で $x_{1}, ...,x_{k}$ と表す
- 離散確率変数 / discrete random variable
  - 飛び飛びの値に確率が割り当てられる変数
  - e.g. サイコロを一回投げて出る目の数
- 連続確率変数 / continuous random variable
  - 連続する値に確率が割り当てられる変数
  - e.g. 身長、時間など
期待値 / expectation
- $E(X)$
- 確率変数がとり得る値の平均値
- 母平均 $\mu$ に相当
確率変数の分散 / variance
- $V(X)$
- 確率変数Xのとり得る値が期待値の周りにどの程度ばらついているかを表す
- 偏差の二乗と対応する確率との加重和
- 確率変数の分散は「期待値」のように特別な呼び名は無く、そのまま「分散」という

確率分布とは

すべての排反事象とその確率を対応させたものを 確率分布(probability distribution) という。

e.g. サイコロを一回投げて出る目の確率分布

$X$	1	2	3	4	5	6
$P$	1/6	1/6	1/6	1/6	1/6	1/6

それぞれの確率は0〜1の間にある
確率の和は1になる

確率分布を表す関数

確率質量関数 / probability mass function, PMF

離散確率変数 $X$ が $x$ をとる確率を表す。
単に確率関数（probability function）ともいう。

確率密度関数 / probability density function, PDF

連続確率変数 $X$ が [a, b] の範囲をとる確率を表す。

この面積が確率となる。

累積分布関数 / cumulative distribution function

確率変数 $X$ が $t$ 以下の値となる確率を表す。

離散型確率分布

	式
確率質量関数	確率変数 $X$ が $x$ をとる確率。 $p(x)=P(X=x)$ 以下性質を持つ。 $1 \geq p(x) \geq 0$ $\sum_{i=1}^{\infty}p\left(x_{i}\right)=1$
期待値	$\begin{aligned}\mu&=E(X) \\ &=\sum_{i=1}^{n} x_{i} \times p(x_{i})\end{aligned}$
分散	$\begin{aligned}\sigma^{2}&=V(X) \\ &=\sum_{i=1}^{n}\left(x_{i}-\mu\right)^{2} p\left(x_{i}\right)\end{aligned}$
標準偏差	$\sigma=\sqrt{V(X)}$
累積分布関数	確率変数 $X$ が $t$ 以下の値となる確率。 $\begin{aligned}F(t)&=P(x \leq t) \\ &=\sum_{i=1}^{t} p\left(x_{i}\right)\end{aligned}$

二項分布 / Binominal distribution

コインを投げて表が出るか裏が出るかのように、とり得る結果が2つしかない試行のことを ベルヌーイ試行 という。ベルヌーイ試行を繰り返し、成功する回数 $X$ が従う確率分布を二項分布という。

X=\operatorname{Binomial}(n, p)

記号	意味
$n$	試行回数
$p$	成功確率

二項分布の式

成功確率 $p$ の試行を $n$ 回行い $x$ 回成功する確率、期待値、分散、標準偏差。

P(X = x) = {}_n\mathrm{C}_xp^x(1 - p)^{n - x}

E(X) = np

V(X) = np(1 - p)

\sqrt{V(X)} = \sqrt{np(1 - p)}

二項分布のRの関数

Binomial(30, 0.2)の場合

# x = 10 の確率
> dbinom(10, size=30, prob=0.2)
[1] 0.03547089

# x <= 6 の確率
> pbinom(6, size=30, prob=0.2)
[1] 0.6069699

# 25パーセンタイルとなる値
> qbinom(0.25, size=30, prob=0.2)
[1] 3

グラフ

> x <- 0:20
> plot(x, dbinom(x, size=30, prob=0.2), type="h", lwd=5)

Binomial(30, 0.2)に従う10個の乱数を生成

> rbinom(10, size=30, prob=0.2)
 [1]  7  6  4  7  6  7  5  4 10  6

ポアソン分布 / Poisson distribution

$n$ が十分大きく、 $p$ が非常に小さい現象であるときにポアソン分布に従う。単位時間あたりにある事象が平均して $\lambda$ 回起こることが見込まれる場合に、単位時間あたりに $x$ 回起こる確率を表す。

e.g. 15分に平均3回電話がかかってくるコールセンターで、1時間に20回電話がかかってくる確率

X=\operatorname{Poisson}(\lambda)

記号	意味
$\lambda$	期待値

ポアソン分布の式

単位時間あたりにある事象が平均して $\lambda$ 回起こることが見込まれる場合に、単位時間あたりに $x$ 回起こる確率、期待値、分散、標準偏差。

P(X = x) =\frac{e^{-\lambda} \lambda^{x}}{x !}

E(X) = \lambda

V(X) = \lambda

\sqrt{V(X)} = \sqrt{\lambda}

ポアソン分布のRの関数

Poisson(3)の場合

# x = 0 の確率
> dpois(0, lambda=3)
[1] 0.04978707

# x <= 2 の確率
> ppois(2, lambda=3)
[1] 0.4231901

# 25パーセンタイルとなる値
> qpois(0.25, lambda=3)
[1] 1

グラフ

> x <- 0:15
> plot(x, dpois(x, lambda=3), type="h", lwd=5)

Poisson(3)に従う10個の乱数を生成

> rpois(10, lambda=3)
 [1] 8 2 2 3 3 2 2 5 3 2

連続型確率分布

	式
確率密度関数	連続確率変数 $X$ が [a, b] の範囲をとる確率。 $f(x)=f(X=x)$ 以下性質を持つ。 $f(x) \geq 0$ $\int_{-\infty}^{\infty} f(x) d x=1$
期待値	$\begin{aligned}\mu&=E(X) \\ &=\int_{-\infty}^{\infty} x f(x) d x\end{aligned}$
分散	$\begin{aligned}\sigma^{2}&=V(X) \\ &=\int_{-\infty}^{\infty}(x-\mu)^{2} f(x) d x\end{aligned}$
標準偏差	$\sigma=\sqrt{V(X)}$
累積分布関数	確率変数 $X$ が $t$ 以下の値となる確率。 $\begin{aligned}F(t)&=P(x \leq t) \\ &=\int_{-\infty}^{t} f(x) d x\end{aligned}$

連続一様分布 / continuous uniform distribution

確率変数 $X$ の値に関わらず、確率密度関数が常に一定の値をとる確率分布を一様分布という。 $X$ が連続確率変数であるときは、その分布を連続一様分布という。

e.g. 1〜6の範囲で10万個の乱数を作り、その中からある値を選ぶ確率

X=\operatorname{Uniform}(a, b)

記号	意味
$a$	確率変数 $X$ のとり得る最小値
$b$	確率変数 $X$ のとり得る最大値

連続一様分布の式

確率変数 $X$ が $a \leq X \leq b$ の連続一様分布において、 $x$ をとる確率、期待値、分散、標準偏差。

f(x)=\left\{\begin{array}{ll} \frac{1}{b-a} & (a \leq x \leq b) \\ 0 & (\text { otherwise }) \end{array}\right.

E(X)=\frac{a+b}{2}

V(X)=\frac{(b-a)^{2}}{12}

\sqrt{V(X)}=\sqrt{\frac{(b-a)^{2}}{12}}

連続一様分布のRの関数

Uniform(1, 6)の場合

# x = 1 の確率
> dunif(1, min=1, max=6)
[1] 0.2

# x <= 3 の確率
> punif(3, min=1, max=6)
[1] 0.4

# 25パーセンタイルとなる値
> qunif(0.25, min=1, max=6)
[1] 2.25

グラフ

> curve(dunif(x, min=1, max=6), from = 0, to = 10)

Uniform(1, 6)に従う10個の乱数を生成

> runif(10, min=1, max=6)
 [1] 0.93176768 1.68420630 0.04249733 0.61393926 0.16575856 0.39357959
 [7] 0.13956209 1.20598304 0.76407702 0.12515356

指数分布 / exponential distribution

「ある期間に平均して $\lambda$ 回起こる現象が、次に起こるまでの期間 $X$ 」のような、「次に何かが起こるまでの期間」が従う確率分布を指数分布という。

e.g. 電球が切れる間隔、次に機会が故障するまでの期間

X=\operatorname{Exponential}(\lambda)

記号	意味
$\lambda$	レート。単位時間あたりの平均発生回数

指数分布の式

ある期間に平均して $\lambda$ 回起こる現象において、次に起こるまでの期間が $x$ になる確率、期待値、分散、標準偏差。

f(x)=\left\{\begin{array}{ll} \lambda e^{-\lambda x} & x \geq 0 \\ 0 & x<0 \end{array}\right.

E(X)=\frac{1}{\lambda}

V(X)=\frac{1}{\lambda^{2}}

\sqrt{V(X)}=\sqrt{\frac{1}{\lambda^{2}}}

指数分布のRの関数

Exponential(2)の場合

# x = 1 の確率
> dexp(1, rate=2)
[1] 0.2706706

# x <= 2 の確率
> pexp(2, rate=2)
[1] 0.9816844

# 25パーセンタイル
> qexp(0.25, rate=2)
[1] 0.143841

グラフ

> curve(dexp(x, rate=2), from = 0, to = 5)

Exponential(2)に従う10個の乱数を生成

> rexp(10, rate=2)
 [1] 0.93176768 1.68420630 0.04249733 0.61393926 0.16575856 0.39357959
 [7] 0.13956209 1.20598304 0.76407702 0.12515356

正規分布 / normal distribution

ガウス分布とも呼ばれる代表的な連続型確率分布。身近にあるさまざまな社会現象や自然現象を表すモデルとして用いられている。
分布が数学的に扱いやすい性質を持っているため、統計分析によく用いられる重要な確率分布。

平均値と中央値が同じ
平均値に近い値の頻度が高く、平均値から離れるほど頻度が低くなる
平均値 $x=\mu$ に関して左右対称な分布

X=\operatorname{Normal}(\mu, \sigma^{2})

記号	意味
$\mu$	平均
$\sigma^{2}$	分散

正規分布を標準化した $\operatorname{Normal}(0, 1)$ に従う分布を 標準正規分布(standard normal distribution) という。

正規分布の式

正規分布に従う確率変数 $X$ の確率密度関数、期待値、分散、標準偏差。

f(x)=\frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{(x-\mu)^{2}}{2 \sigma^{2}}\right) \quad(-\infty<x<\infty)

E(X)=\mu

V(X)=\sigma^{2}

\sqrt{V(X)}=\sigma

正規分布のRの関数

Normal(40, 10)の場合

# x = 30 の確率
> dnorm(30, mean=40, sd=10)
[1] 0.02419707

# x <= 30 の確率
> pnorm(20, mean=40, sd=10)
[1] 0.02275013

# 25パーセンタイルとなる値
> qnorm(0.25, mean=40, sd=10)
[1] 33.2551

グラフ

> curve(dnorm(x, mean=40, sd=10),0,80)

Normal(40, 10)に従う10個の乱数を生成

> rnorm(10, mean=40, sd=10)
 [1] 40.89110 47.80679 18.50429 42.50225 14.39112 45.97649 40.40319 55.36950
 [9] 31.43789 32.31698