🐕

非復元抽出の分散

2023/04/02に公開

はじめに

ここでは、非復元抽出をしたときの分布(超幾何分布という)の分散を求める式の導出についてメモしておきます。準1級の教科書では分散の式が書かれていますが、導出が書かれていません。過去問ではこの式は知っていなければ解けない問題がありました。自分で調査し、導出過程を説明できるようになったので、ここの記しておきます。意外と説明が見つからなかったので。

被復元抽出でくじを引くときの当たりの回数の分散は?

もともと N 個のなかに当たりくじが M 個入っているとき、1サンプル抽出してそれがあたりである確率は、 \frac{M}{N} です。ではn個取り出した時、その中であたりの個数は?

復元抽出は二項分布

n 個のくじを引くとき、一つ取り出し、結果を確認したらそのくじをもとに戻すことを考えます。これが復元抽出に当たります。

復元抽出の場合、1個のくじを引く操作を繰り返します。それぞれは独立であると考えられます。 i 回目の操作の観測を X_i 、ただしくじが当たりならX_i=1, 外れなら X_i=0 とする確率変数を考えます。ベルヌーイ分布 X_i \sim Bin(1, \frac{M}{N}) と言った方が良いかもしれないですね。平均と分散は、統計検定準1級を受験するには必須の知識です。

E[X_i] = \frac{M}{N} \quad\quad V[X_i] = \frac{M}{N} \left(1-\frac{M}{N}\right)

分散については、この後何度も出てくるので、

\sigma^2 = \frac{M}{N} \left(1-\frac{M}{N}\right)

と書くことにします。

n 回引いた時の当たりの回数は、確率変数

Y=X_1 + \cdots + X_n

の値に対応します。Y の従う確率分布は2項分布で

Y\sim Bin(n,\frac{M}{N})

です。ご存じの通り、平均と分散は以下の通りです。

E[X_i] = n\frac{M}{N} \quad V[X_i] = n\sigma^2

非復元集出は超幾何分布

超幾何分布の分散

もう一度、Y=X_1 + \cdots + X_n の分散を考えてみます。

V[Y] = V[\sum_{i=1}^n X_i] = \sum_{i=1}^n V[X_i] + \sum_{i=1}^n \sum_{j=1,i\neq j}^n Cov[X_i,X_j]

先程は、各X_iの抽出が独立でした。しかし、もし一度引いたくじを戻さないでくじを引き続けるなら、どうなるでしょうか?この戻さない場合を非復元抽出と言います。

復元抽出では i\neq jX_iX_j が独立なので、共分散が0です。しかし、非復元抽出では独立ではありません。共分散を計算してみます。

Cov[X_i,X_j] = E[X_iX_j] - E[X_i] E[X_j]

我々がここでまだ計算していないのは、 X_iX_j の期待値です。値を持つのは X_i=1 , X_j=1 の場合のみなので、

E[X_iX_j] = \frac{M}{N} \cdot \frac{M-1}{N-1}

であることから、

Cov[X_i,X_j] = \frac{M}{N} \cdot \frac{M-1}{N-1} - \left(\frac{M}{N}\right)^2 = \frac{M}{N} \left(1 - \frac{M}{N}\right)\frac{-1}{N-1}

これから、

V[Y] = n\sigma^2 + n(n-1) \cdot \frac{(-1)}{N-1} \sigma^2 = n\sigma^2 \frac{N-n}{N-1}

つまり復元抽出のときに比べて分散の値は

\frac{N-n}{N-1}

のスケールで小さくなります。この項をfinite population correction factor と呼ぶといくつかの英語文献には書かれていました。

当たりの期待値

期待値は復元出現でも非復元抽出でも同じです。n個をまとめて取り出して、そのn個を並べて X_1から X_nまで並べたとしても並べなくても、当たりの個数は変わりません。

また、数式をこねくり回しても説明できます。確率変数の和を計算するとき、相関は関係ないですよね。

E[Y] = E[\sum_{i=1}^n X_i] = \sum_{i=1}^n E[X_i]

当たりが y 個の確率

順序が逆転してしまいましたが、最後に P(Y=y) を計算してみましょう。まずN個からn個取り出す組み合わせは \binom{N}{n} 通りです。そのうち、当たりの全個数Mのうちの y 個が含まれるのは \binom{M}{y} 通りあり、はずれがn-y 個あるのは \binom{N-M}{n-y} 通りあります。ということで、

P(Y=y) = \frac{\binom{M}{y}\binom{N-M}{n-y}}{\binom{N}{M}}

となります。この確率が定義されるのは、yが有効な値の場合のみです。当たりの個数より大きいyは無意味(確率は0)です。

ここまでの話で計算した分布を超幾何分布(hypergeometric distribution) HG(N,M,n) と呼ぶそうです。

Y \sim HG(N,M,n)

その他

今回、確率変数の値を0, 1 としましたが、より一般にはX_i=a_iとおいて、平均\muと分散\sigma^2を定義しても、結果は同じになります。この本には紹介されていました。

まとめ

とりあえず、非復元抽出の分散の計算ができるようになりました。これできっと問題も解けるようになり、準1級も受かるでしょう。受かるといいなぁ。

Discussion