はじめに
ここでは、非復元抽出をしたときの分布(超幾何分布という)の分散を求める式の導出についてメモしておきます。準1級の教科書では分散の式が書かれていますが、導出が書かれていません。過去問ではこの式は知っていなければ解けない問題がありました。自分で調査し、導出過程を説明できるようになったので、ここの記しておきます。意外と説明が見つからなかったので。
被復元抽出でくじを引くときの当たりの回数の分散は?
もともと N 個のなかに当たりくじが M 個入っているとき、1サンプル抽出してそれがあたりである確率は、 \frac{M}{N} です。ではn個取り出した時、その中であたりの個数は?
復元抽出は二項分布
n 個のくじを引くとき、一つ取り出し、結果を確認したらそのくじをもとに戻すことを考えます。これが復元抽出に当たります。
復元抽出の場合、1個のくじを引く操作を繰り返します。それぞれは独立であると考えられます。 i 回目の操作の観測を X_i 、ただしくじが当たりならX_i=1, 外れなら X_i=0 とする確率変数を考えます。ベルヌーイ分布 X_i \sim Bin(1, \frac{M}{N}) と言った方が良いかもしれないですね。平均と分散は、統計検定準1級を受験するには必須の知識です。
E[X_i] = \frac{M}{N}
\quad\quad
V[X_i] = \frac{M}{N} \left(1-\frac{M}{N}\right)
分散については、この後何度も出てくるので、
\sigma^2 = \frac{M}{N} \left(1-\frac{M}{N}\right)
と書くことにします。
n 回引いた時の当たりの回数は、確率変数
の値に対応します。Y の従う確率分布は2項分布で
です。ご存じの通り、平均と分散は以下の通りです。
E[X_i] = n\frac{M}{N}
\quad
V[X_i] = n\sigma^2
非復元集出は超幾何分布
超幾何分布の分散
もう一度、Y=X_1 + \cdots + X_n の分散を考えてみます。
V[Y] = V[\sum_{i=1}^n X_i] = \sum_{i=1}^n V[X_i] + \sum_{i=1}^n \sum_{j=1,i\neq j}^n Cov[X_i,X_j]
先程は、各X_iの抽出が独立でした。しかし、もし一度引いたくじを戻さないでくじを引き続けるなら、どうなるでしょうか?この戻さない場合を非復元抽出と言います。
復元抽出では i\neq j の X_i と X_j が独立なので、共分散が0です。しかし、非復元抽出では独立ではありません。共分散を計算してみます。
Cov[X_i,X_j] = E[X_iX_j] - E[X_i] E[X_j]
我々がここでまだ計算していないのは、 X_iX_j の期待値です。値を持つのは X_i=1 , X_j=1 の場合のみなので、
E[X_iX_j] = \frac{M}{N} \cdot \frac{M-1}{N-1}
であることから、
Cov[X_i,X_j] = \frac{M}{N} \cdot \frac{M-1}{N-1} - \left(\frac{M}{N}\right)^2 = \frac{M}{N} \left(1 - \frac{M}{N}\right)\frac{-1}{N-1}
これから、
V[Y] = n\sigma^2 + n(n-1) \cdot \frac{(-1)}{N-1} \sigma^2 = n\sigma^2 \frac{N-n}{N-1}
つまり復元抽出のときに比べて分散の値は
のスケールで小さくなります。この項をfinite population correction factor と呼ぶといくつかの英語文献には書かれていました。
当たりの期待値
期待値は復元出現でも非復元抽出でも同じです。n個をまとめて取り出して、そのn個を並べて X_1から X_nまで並べたとしても並べなくても、当たりの個数は変わりません。
また、数式をこねくり回しても説明できます。確率変数の和を計算するとき、相関は関係ないですよね。
E[Y] = E[\sum_{i=1}^n X_i] = \sum_{i=1}^n E[X_i]
当たりが y 個の確率
順序が逆転してしまいましたが、最後に P(Y=y) を計算してみましょう。まずN個からn個取り出す組み合わせは \binom{N}{n} 通りです。そのうち、当たりの全個数Mのうちの y 個が含まれるのは \binom{M}{y} 通りあり、はずれがn-y 個あるのは \binom{N-M}{n-y} 通りあります。ということで、
P(Y=y) = \frac{\binom{M}{y}\binom{N-M}{n-y}}{\binom{N}{M}}
となります。この確率が定義されるのは、yが有効な値の場合のみです。当たりの個数より大きいyは無意味(確率は0)です。
ここまでの話で計算した分布を超幾何分布(hypergeometric distribution) HG(N,M,n) と呼ぶそうです。
その他
今回、確率変数の値を0, 1 としましたが、より一般にはX_i=a_iとおいて、平均\muと分散\sigma^2を定義しても、結果は同じになります。この本には紹介されていました。
まとめ
とりあえず、非復元抽出の分散の計算ができるようになりました。これできっと問題も解けるようになり、準1級も受かるでしょう。受かるといいなぁ。
Discussion