はじめに
今回は統計検定1級より 2017年 人文科学 問題5 の解答を記載します。
グループ分けと信頼区間に関する問題です。
方法2におけるグループ分けの人数の分散について、問題では大小比較のみですが、実際に求めると、非常に綺麗な形となります。
補足としてこの分散の求め方について説明します。
問題については著作物のため割愛します。
前置き
A,B の 2 グループについて以下のグループ分けについて考えます。
1人目はグループ A,B ともに等確率でランダム。2人目以降は、そのときのグループ A の人数を a 、グループ B の人数を b とし、
\dfrac{b}{a+b} の確率でグループ A 、 \dfrac{a}{a+b} の確率でグループ B に選ばれる。
参加者を n 人として グループ A の人数を表す確率変数を Y_{n} とした場合、
Y_{n} の分散 V[Y_{n}] は、n \geq 3 のとき、
\begin{aligned}
V[Y_{n}] =\dfrac{n}{12}
\end{aligned}
で表されます。導出は [補足] をご覧ください。
[1]
X \sim B(5,0.5) より
\begin{aligned}
P(X=3)
&={}_{5}C_{3} \left( \dfrac{1}{2} \right)^{2} \\
&= \dfrac{10}{32} \\
&= 0.3125
\end{aligned}
\begin{aligned}
E[X]
&=5 \cdot 0.5 \\
&= 2.5 \\
\end{aligned}
\begin{aligned}
V[X]
&=5 \cdot 0.5 \cdot (1-0.5) \\
&= 1.25
\end{aligned}
[2]
2人目は必ず1人目で選ばれなかったグループに選ばれることから、2人目のグループ分けの終了時点で、必ずグループ A に1人、グループ B に1 人となる。ゆえに、3人目以降のグループ分けのみ考えればよい。
また、P(Y=0)=P(Y=5)=0 となる。
さらに対称性により グループ A に1人選ばれる確率とグループ B に1人選ばれる確率( = グループ A に4人選ばれる確率)は等しい。
よって
\left\{ \begin{aligned}
P(Y=1)=P(Y=4) \\
P(Y=2)=P(Y=3) \\
\end{aligned} \right.
P(Y=1) については、 3 ~ 5 人目において、グループ A に選ばれればよい。よって、
\begin{aligned}
P(Y=1)
&=\dfrac{1}{2} \cdot \dfrac{1}{3} \cdot \dfrac{1}{4} \\
&=\dfrac{1}{24}
\end{aligned}
すべての確率の和は 1 であることから、
\begin{aligned}
\sum_{i=1}^{5} P(Y=i) = 1 \\
2\cdot \dfrac{1}{24} + 2\ P(Y=2) = 1
\end{aligned}
よって、
\begin{aligned}
P(Y=2)=P(Y=3)=\dfrac{11}{24}
\end{aligned}
各確率をまとめると、
\left\{\begin{aligned}
&P(Y=0)=0 \\
&P(Y=1)=\dfrac{1}{24} \\
&P(Y=2)=\dfrac{11}{24} \\
&P(Y=3)=\dfrac{11}{24} \\
&P(Y=4)=\dfrac{1}{24} \\
&P(Y=5)=0 \\
\end{aligned} \right.
以上より、
\begin{aligned}
E[Y]
&=\dfrac{1}{24} (1\cdot 1 + 2\cdot 11
+3 \cdot 11 + 4\cdot 1 ) \\
&=\dfrac{60}{24} \\
&= 2.5
\end{aligned}
\begin{aligned}
V[Y]
&=\dfrac{1}{24} ((1-1.5)^{2} \cdot 1 + (2-2.5)^{2} \cdot 11
+(3-2.5)^{2} \cdot 11 + (4-2.5)^{2} \cdot 1 ) \\
&=\dfrac{10}{24} \\
&= \dfrac{5}{12}
\end{aligned}
[3]
X \sim B(5,0.5) より E[X]=\dfrac{n}{2}
Y については対称性により、P(Y=i)=P(Y=n-i) が成り立つことを利用し、期待値を求めると、
まず、n=2k (k=1,\ 2,\ ...) のとき、
\begin{aligned}
E[Y]
&=1\cdot P(Y=1) + \cdots + (2k-1) \cdot P(Y=2k-1) \\
&=2kP(Y=1) + \cdots + 2kP(Y=k-1) +k \cdot P(Y=k) \\
&=k(2P(Y=1) + \cdots + 2P(Y=k-1) + P(Y=k)) \\
&=k\sum_{i=1}^{2k-1}P(Y=i) \\
&=\dfrac{n}{2}
\end{aligned}
次に、n=2k+1 (k=1,\ 2,\ ...) のとき、
\begin{aligned}
E[Y]
&=1\cdot P(Y=1) + \cdots + (2k) \cdot P(Y=2k) \\
&=(2k+1)P(Y=1) + \cdots + (2k+1)P(Y=k) \\
&=\dfrac{2k+1}{2}(2P(Y=1) + \cdots + 2P(Y=k)) \\
&=\dfrac{2k+1}{2}\sum_{i=1}^{2k}P(Y=i) \\
&=\dfrac{n}{2}
\end{aligned}
よって期待値については
\begin{aligned}
E[X]=E[Y]
\end{aligned}
が成り立つ。
分散については、方法 2 においては人数の少ないグループに選ばれる確率が大きくなり、人数の多いグループに選ばれる確率が小さくなることから、グループ分けの人数のばらつきは小さくなる。よって、V[X] \gt V[Y] となる。
[4]
グループ A,B の生徒の点数の確率変数をそれぞれ X_{A},X_{B} 人数をそれぞれ n_{A},n_{B} とすると、分散が既知なので
\begin{aligned}
\dfrac{\bar{X}_{A}-\mu_{A}}{\dfrac{\sigma_{A}}{\sqrt{n_{A}}}}
\sim N(0,1)
\end{aligned}
となる。よって \mu_{A} の95%信頼区間は
\begin{aligned}
\bar{X}_{A} - z_{0.025} \dfrac{\sigma_{A}}{\sqrt{n_{A}}}\lt \mu_{A}
\lt \bar{X}_{A} + z_{0.025} \dfrac{\sigma_{A}}{\sqrt{n_{A}}}
\end{aligned}
ゆえに区間幅 L_{A} は
\begin{aligned}
L_{A}
&= 2 z_{0.025} \dfrac{\sigma_{A}}{\sqrt{n_{A}}} \\
&= 2 \cdot 1.96 \cdot \dfrac{20}{\sqrt{96}} \\
&= 8.00
\end{aligned}
また、区間幅 L_{B} については
\begin{aligned}
L_{B}
&= 2 z_{0.025} \dfrac{\sigma_{B}}{\sqrt{n_{B}}} \\
\end{aligned}
と表せることから、区間幅比 \dfrac{L_{A}}{L_{B}} は
\begin{aligned}
\dfrac{L_{A}}{L_{B}}
&=\dfrac{\sigma_{A}}{\sqrt{n_{A}}} \cdot
\dfrac{\sqrt{n_{B}}}{\sigma_{B}} \\
&=\dfrac{\sigma_{A}}{\sigma_{B}}
\sqrt{\dfrac{{n_{B}}}{n_{A}}} \\
&=\sqrt{\dfrac{104}{96}} \\
&= 1.041 \\
\end{aligned}
となる。
[5]
[4] の結果から、\mu_{A} の95%の信頼区間の区間幅が 8.0 以下となるには n_{A} \geq 96 である必要がある。
E[X]=\dfrac{n}{2},V[X]=\dfrac{n}{4} であり、
n が十分に大きいことから、X \sim N\left( \dfrac{n}{2},\dfrac{n}{4} \right) と近似できる。
よって、
Z=\dfrac{X-\dfrac{n}{2}}{\sqrt{\dfrac{n}{4}}}
=\dfrac{2X-n}{\sqrt{n}} \sim N(0,1)
P(X \geq 96)=0.8 となることから、
\begin{aligned}
P(X \geq 96)
&=P\left(\dfrac{2X-n}{\sqrt{n}} \geq \dfrac{192-n}{\sqrt{n}}\right) \\
&=P\left( Z \geq \dfrac{192-n}{\sqrt{n}}\right) \\
&= 0.8 \\
\end{aligned}
よって
\begin{aligned}
&\dfrac{192-n}{\sqrt{n}}
=z_{0.8}=-z_{0.2} =-0.84& \\
&\hspace{30pt} 192-n= -0.84\sqrt{n}& \\
&\hspace{23pt} n-0.84\sqrt{n} -192= 0& \\
\end{aligned}
2次方程式の解の公式より
\begin{aligned}
&\sqrt{n}=0.42 + \sqrt{0.42^2+192\cdot 1} = 14.28 \\
&\hspace{53pt} n = 203.9
\end{aligned}
よって、204 人以上の学生が必要である。
[補足]
方針
まず、P(Y_{n}=i) を P(Y_{n-1}=\cdots) で表現します。
次に、上の関係式から、V[Y_{n}] の式を整理することにより、 V[Y_{n-1}] の形に変形し、漸化式を立式します。
漸化式の解き方については、帰納法を使うと早いですが、地道に解くこともできます。
証明
漸化式の立式
P(Y_{n}=i) と P(Y_{n-1}=\cdots) の関係については
P(Y_{n}=i) は n 人 において、グループ A の人数が i 人である確率であることから、" n-1 人のグループ分けにおいてグループ A の人数が i-1 となり、最後の人が グループ A に選ばれる確率" と " n-1 人のグループ分けにおいてグループ A の人数が i となり、最後の人が グループ B に選ばれる確率" の和となる。
よって、P(Y_{n}=i) と P(Y_{n-1}=\cdots) の関係式は以下のように表せる。
\begin{aligned}
P(Y_{n}=i)
&=P(Y_{n-1}=i-1)\cdot \dfrac{n-1-(i-1)}{n-1}
+P(Y_{n-1}=i)\cdot \dfrac{i}{n-1} \\
&=\dfrac{n-i}{n-1} P(Y_{n-1}=i-1)
+\dfrac{i}{n-1} P(Y_{n-1}=i)\\
\end{aligned}
V[Y_{n}] については
\begin{aligned}
V\left[ Y_{n} \right]
&=E\left[ (Y_{n} - E[Y_{n}] )^{2} \right] \\
&=\sum^{n-1}_{i=1} \left(i - \dfrac{n}{2} \right)^{2}P(Y_{n}=i)\ \ \Bigr( P(Y_{n}=0) =P(Y_{n}=n) =0 \Bigl)\\
&=\dfrac{1}{n-1} \sum^{n-1}_{i=1} \left(i - \dfrac{n}{2} \right)^{2}
\left\{(n-i)P( Y_{n-1}=i-1) +iP(Y_{n-1}=i)\right\} \\
&=\dfrac{1}{n-1} \sum_{i=1}^{n-2} \left\{ \left(i - \dfrac{n}{2} \right)^{2} i P(Y_{n-1}=i) +
\left(i +1 - \dfrac{n}{2} \right)^{2} (n-i-1) P(Y_{n-1}=i) \right\} \\
& \hspace{15pt} \Bigg(\left( 1 - \dfrac{n}{2} \right)^{2} (n-1) P(Y_{n-1}=0)
=\left( n-1 - \dfrac{n}{2} \right)^{2} (n-1) P(Y_{n-1}=n-1) =0 \Bigg)\\
&=\dfrac{1}{n-1}\sum_{i=1}^{n-2} P(Y_{n-1}=i) \left\{ \left(i - \dfrac{n}{2} \right)^{2} i +
\left(i +1 - \dfrac{n}{2} \right)^{2} (n-i-1) \right\} \\
\end{aligned}
ここで、\left(i - \dfrac{n}{2} \right)^{2} i + \left(i +1 - \dfrac{n}{2} \right)^{2} (n-i-1) について整理すると、
\begin{aligned}
\Big(i & - \dfrac{n}{2} \Big)^{2} i + \left(i +1 - \dfrac{n}{2} \right)^{2} (n-i-1) \\
&=(n-3)i^{2}- (n-3)(n-1)i
+\dfrac{n-1}{4}\left( n^{2}-4n+4 \right)\\
&=(n-3)\left(i - \dfrac{n-1}{2} \right)^{2}- (n-3)\cdot\dfrac{(n-1)^{2}}{4}
+\dfrac{n-1}{4}\left( n^{2}-4n+4 \right)\\
&=(n-3)\left(i - \dfrac{n-1}{2} \right)^{2} +\dfrac{n-1}{4} (n^{2}-4n+4 -(n^2+4n+3))\\
&=(n-3)\left(i - \dfrac{n-1}{2} \right)^{2} +\dfrac{n-1}{4}\\
\end{aligned}
以上より、
\begin{aligned}
V\left[ Y_{n} \right]
&=\dfrac{1}{n-1}\sum_{i=1}^{n-2} P(Y_{n-1}=i) \left\{ (n-3) \left(i - \dfrac{n-1}{2} \right)^{2}
+\dfrac{n-1}{4} \right\}\\
&=\dfrac{n-3}{n-1}\left\{\sum_{i=1}^{n-2} \left(i - \dfrac{n-1}{2} \right)^{2} P(Y_{n-1}=i)
\right\}+\dfrac{1}{4}\\
&=\dfrac{n-3}{n-1}\ V[Y_{n-1}] +\dfrac{1}{4} \\
\end{aligned}
分散の導出
V[Y_{n}]=\dfrac{n}{12} が成立することを帰納法により証明する。
n=3 のとき、
\begin{aligned}
V\left[ Y_{3} \right]
&=\dfrac{0}{2}V[Y_{2}]+\dfrac{1}{4} \\
&=\dfrac{1}{4}=\dfrac{3}{12} \\
\end{aligned}
よって、V[Y_{3}]=\dfrac{3}{12} となり、成立する。
n=k のとき、 V[Y_{k}]=\dfrac{k}{12} が成立する場合、
\begin{aligned}
V[Y_{k+1}]
&=\dfrac{k-2}{k} \cdot \dfrac{k}{12} + \dfrac{1}{4} \\
&=\dfrac{k-2}{12} + \dfrac{3}{12} \\
&=\dfrac{k+1}{12} \\
\end{aligned}
と表せ、n=k+1 の場合も成立することから、帰納法により n \geq 3 において
が成立する。
別解
答えが未知の場合は、以下のように地道に解くこともできます。
\begin{aligned}
V[Y_{n}]
&=\dfrac{n-3}{n-1}\ V[Y_{n-1}] +\dfrac{1}{4} \\
&=\dfrac{n-3}{n-1}\left( \dfrac{n-4}{n-2}\ V[Y_{n-2}]+ \dfrac{1}{4} \right) +\dfrac{1}{4} \\
&=\dfrac{1}{4} \left(1+ \dfrac{n-3}{n-1} + \dfrac{(n-3)(n-4)}{(n-1)(n-2)} +
\cdots +\dfrac{(n-3)(n-4)}{(n-1)(n-2)} \cdots \dfrac{1}{3} \right) \\
&=\dfrac{1}{4(n-1)(n-2)} \left( (n-1)(n-2) + (n-2)(n-3) + (n-3)(n-4) +
\cdots + 2\cdot 1 \right) \\
&=\dfrac{1}{4(n-1)(n-2)}\sum_{i=1}^{n-2}i(i+1) \\
\end{aligned}
ここで、\sum_{i=1}^{n}i(i+1) については
\begin{aligned}
\sum_{i=1}^{n}i(i+1)
&=\sum_{i=1}^{n} \left( i^{2}+i \right) \\
&=\dfrac{n(n+1)(2n+1)}{6} + \dfrac{n(n+1)}{2} \\
&=\dfrac{n(n+1)}{6}(2n+1+3) \\
&=\dfrac{n(n+1)(n+2)}{3} \\
\end{aligned}
以上より、
\begin{aligned}
V[Y_{n}]
&=\dfrac{1}{4(n-1)(n-2)}\sum_{i=1}^{n-2}i(i+1) \\
&=\dfrac{1}{4(n-1)(n-2)}\dfrac{(n-2)(n-1)n}{3} \\
&=\dfrac{n}{12}
\end{aligned}
Discussion