🗂

統計検定1級 2017年 人文科学 問題5 解答例 +α

2024/04/10に公開

はじめに

今回は統計検定1級より 2017年 人文科学 問題5 の解答を記載します。
グループ分けと信頼区間に関する問題です。
方法2におけるグループ分けの人数の分散について、問題では大小比較のみですが、実際に求めると、非常に綺麗な形となります。
補足としてこの分散の求め方について説明します。
問題については著作物のため割愛します。

前置き

A,B の 2 グループについて以下のグループ分けについて考えます。
1人目はグループ A,B ともに等確率でランダム。2人目以降は、そのときのグループ A の人数を a 、グループ B の人数を b とし、
\dfrac{b}{a+b} の確率でグループ A\dfrac{a}{a+b} の確率でグループ B に選ばれる。

参加者を n 人として グループ A の人数を表す確率変数を Y_{n} とした場合、
Y_{n} の分散 V[Y_{n}] は、n \geq 3 のとき、

\begin{aligned} V[Y_{n}] =\dfrac{n}{12} \end{aligned}

で表されます。導出は [補足] をご覧ください。

[1]

X \sim B(5,0.5) より

\begin{aligned} P(X=3) &={}_{5}C_{3} \left( \dfrac{1}{2} \right)^{2} \\ &= \dfrac{10}{32} \\ &= 0.3125 \end{aligned}
\begin{aligned} E[X] &=5 \cdot 0.5 \\ &= 2.5 \\ \end{aligned}
\begin{aligned} V[X] &=5 \cdot 0.5 \cdot (1-0.5) \\ &= 1.25 \end{aligned}

[2]

2人目は必ず1人目で選ばれなかったグループに選ばれることから、2人目のグループ分けの終了時点で、必ずグループ A に1人、グループ B に1 人となる。ゆえに、3人目以降のグループ分けのみ考えればよい。
また、P(Y=0)=P(Y=5)=0 となる。
さらに対称性により グループ A に1人選ばれる確率とグループ B に1人選ばれる確率( = グループ A に4人選ばれる確率)は等しい。

よって

\left\{ \begin{aligned} P(Y=1)=P(Y=4) \\ P(Y=2)=P(Y=3) \\ \end{aligned} \right.

P(Y=1) については、 3 ~ 5 人目において、グループ A に選ばれればよい。よって、

\begin{aligned} P(Y=1) &=\dfrac{1}{2} \cdot \dfrac{1}{3} \cdot \dfrac{1}{4} \\ &=\dfrac{1}{24} \end{aligned}

すべての確率の和は 1 であることから、

\begin{aligned} \sum_{i=1}^{5} P(Y=i) = 1 \\ 2\cdot \dfrac{1}{24} + 2\ P(Y=2) = 1 \end{aligned}

よって、

\begin{aligned} P(Y=2)=P(Y=3)=\dfrac{11}{24} \end{aligned}

各確率をまとめると、

\left\{\begin{aligned} &P(Y=0)=0 \\ &P(Y=1)=\dfrac{1}{24} \\ &P(Y=2)=\dfrac{11}{24} \\ &P(Y=3)=\dfrac{11}{24} \\ &P(Y=4)=\dfrac{1}{24} \\ &P(Y=5)=0 \\ \end{aligned} \right.

以上より、

\begin{aligned} E[Y] &=\dfrac{1}{24} (1\cdot 1 + 2\cdot 11 +3 \cdot 11 + 4\cdot 1 ) \\ &=\dfrac{60}{24} \\ &= 2.5 \end{aligned}
\begin{aligned} V[Y] &=\dfrac{1}{24} ((1-1.5)^{2} \cdot 1 + (2-2.5)^{2} \cdot 11 +(3-2.5)^{2} \cdot 11 + (4-2.5)^{2} \cdot 1 ) \\ &=\dfrac{10}{24} \\ &= \dfrac{5}{12} \end{aligned}

[3]

X \sim B(5,0.5) より E[X]=\dfrac{n}{2}
Y については対称性により、P(Y=i)=P(Y=n-i) が成り立つことを利用し、期待値を求めると、

まず、n=2k (k=1,\ 2,\ ...) のとき、

\begin{aligned} E[Y] &=1\cdot P(Y=1) + \cdots + (2k-1) \cdot P(Y=2k-1) \\ &=2kP(Y=1) + \cdots + 2kP(Y=k-1) +k \cdot P(Y=k) \\ &=k(2P(Y=1) + \cdots + 2P(Y=k-1) + P(Y=k)) \\ &=k\sum_{i=1}^{2k-1}P(Y=i) \\ &=\dfrac{n}{2} \end{aligned}

次に、n=2k+1 (k=1,\ 2,\ ...) のとき、

\begin{aligned} E[Y] &=1\cdot P(Y=1) + \cdots + (2k) \cdot P(Y=2k) \\ &=(2k+1)P(Y=1) + \cdots + (2k+1)P(Y=k) \\ &=\dfrac{2k+1}{2}(2P(Y=1) + \cdots + 2P(Y=k)) \\ &=\dfrac{2k+1}{2}\sum_{i=1}^{2k}P(Y=i) \\ &=\dfrac{n}{2} \end{aligned}

よって期待値については

\begin{aligned} E[X]=E[Y] \end{aligned}

が成り立つ。

分散については、方法 2 においては人数の少ないグループに選ばれる確率が大きくなり、人数の多いグループに選ばれる確率が小さくなることから、グループ分けの人数のばらつきは小さくなる。よって、V[X] \gt V[Y] となる。

[4]

グループ A,B の生徒の点数の確率変数をそれぞれ X_{A},X_{B} 人数をそれぞれ n_{A},n_{B} とすると、分散が既知なので

\begin{aligned} \dfrac{\bar{X}_{A}-\mu_{A}}{\dfrac{\sigma_{A}}{\sqrt{n_{A}}}} \sim N(0,1) \end{aligned}

となる。よって \mu_{A} の95%信頼区間は

\begin{aligned} \bar{X}_{A} - z_{0.025} \dfrac{\sigma_{A}}{\sqrt{n_{A}}}\lt \mu_{A} \lt \bar{X}_{A} + z_{0.025} \dfrac{\sigma_{A}}{\sqrt{n_{A}}} \end{aligned}

ゆえに区間幅 L_{A}

\begin{aligned} L_{A} &= 2 z_{0.025} \dfrac{\sigma_{A}}{\sqrt{n_{A}}} \\ &= 2 \cdot 1.96 \cdot \dfrac{20}{\sqrt{96}} \\ &= 8.00 \end{aligned}

また、区間幅 L_{B} については

\begin{aligned} L_{B} &= 2 z_{0.025} \dfrac{\sigma_{B}}{\sqrt{n_{B}}} \\ \end{aligned}

と表せることから、区間幅比 \dfrac{L_{A}}{L_{B}}

\begin{aligned} \dfrac{L_{A}}{L_{B}} &=\dfrac{\sigma_{A}}{\sqrt{n_{A}}} \cdot \dfrac{\sqrt{n_{B}}}{\sigma_{B}} \\ &=\dfrac{\sigma_{A}}{\sigma_{B}} \sqrt{\dfrac{{n_{B}}}{n_{A}}} \\ &=\sqrt{\dfrac{104}{96}} \\ &= 1.041 \\ \end{aligned}

となる。

[5]

[4] の結果から、\mu_{A} の95%の信頼区間の区間幅が 8.0 以下となるには n_{A} \geq 96 である必要がある。

E[X]=\dfrac{n}{2},V[X]=\dfrac{n}{4} であり、
n が十分に大きいことから、X \sim N\left( \dfrac{n}{2},\dfrac{n}{4} \right) と近似できる。

よって、

Z=\dfrac{X-\dfrac{n}{2}}{\sqrt{\dfrac{n}{4}}} =\dfrac{2X-n}{\sqrt{n}} \sim N(0,1)

P(X \geq 96)=0.8 となることから、

\begin{aligned} P(X \geq 96) &=P\left(\dfrac{2X-n}{\sqrt{n}} \geq \dfrac{192-n}{\sqrt{n}}\right) \\ &=P\left( Z \geq \dfrac{192-n}{\sqrt{n}}\right) \\ &= 0.8 \\ \end{aligned}

よって

\begin{aligned} &\dfrac{192-n}{\sqrt{n}} =z_{0.8}=-z_{0.2} =-0.84& \\ &\hspace{30pt} 192-n= -0.84\sqrt{n}& \\ &\hspace{23pt} n-0.84\sqrt{n} -192= 0& \\ \end{aligned}

2次方程式の解の公式より

\begin{aligned} &\sqrt{n}=0.42 + \sqrt{0.42^2+192\cdot 1} = 14.28 \\ &\hspace{53pt} n = 203.9 \end{aligned}

よって、204 人以上の学生が必要である。

[補足]

方針

まず、P(Y_{n}=i)P(Y_{n-1}=\cdots) で表現します。
次に、上の関係式から、V[Y_{n}] の式を整理することにより、 V[Y_{n-1}] の形に変形し、漸化式を立式します。
漸化式の解き方については、帰納法を使うと早いですが、地道に解くこともできます。

証明

漸化式の立式

P(Y_{n}=i)P(Y_{n-1}=\cdots) の関係については
P(Y_{n}=i)n 人 において、グループ A の人数が i 人である確率であることから、" n-1 人のグループ分けにおいてグループ A の人数が i-1 となり、最後の人が グループ A に選ばれる確率" と " n-1 人のグループ分けにおいてグループ A の人数が i となり、最後の人が グループ B に選ばれる確率" の和となる。
よって、P(Y_{n}=i)P(Y_{n-1}=\cdots) の関係式は以下のように表せる。

\begin{aligned} P(Y_{n}=i) &=P(Y_{n-1}=i-1)\cdot \dfrac{n-1-(i-1)}{n-1} +P(Y_{n-1}=i)\cdot \dfrac{i}{n-1} \\ &=\dfrac{n-i}{n-1} P(Y_{n-1}=i-1) +\dfrac{i}{n-1} P(Y_{n-1}=i)\\ \end{aligned}

V[Y_{n}] については

\begin{aligned} V\left[ Y_{n} \right] &=E\left[ (Y_{n} - E[Y_{n}] )^{2} \right] \\ &=\sum^{n-1}_{i=1} \left(i - \dfrac{n}{2} \right)^{2}P(Y_{n}=i)\ \ \Bigr( P(Y_{n}=0) =P(Y_{n}=n) =0 \Bigl)\\ &=\dfrac{1}{n-1} \sum^{n-1}_{i=1} \left(i - \dfrac{n}{2} \right)^{2} \left\{(n-i)P( Y_{n-1}=i-1) +iP(Y_{n-1}=i)\right\} \\ &=\dfrac{1}{n-1} \sum_{i=1}^{n-2} \left\{ \left(i - \dfrac{n}{2} \right)^{2} i P(Y_{n-1}=i) + \left(i +1 - \dfrac{n}{2} \right)^{2} (n-i-1) P(Y_{n-1}=i) \right\} \\ & \hspace{15pt} \Bigg(\left( 1 - \dfrac{n}{2} \right)^{2} (n-1) P(Y_{n-1}=0) =\left( n-1 - \dfrac{n}{2} \right)^{2} (n-1) P(Y_{n-1}=n-1) =0 \Bigg)\\ &=\dfrac{1}{n-1}\sum_{i=1}^{n-2} P(Y_{n-1}=i) \left\{ \left(i - \dfrac{n}{2} \right)^{2} i + \left(i +1 - \dfrac{n}{2} \right)^{2} (n-i-1) \right\} \\ \end{aligned}

ここで、\left(i - \dfrac{n}{2} \right)^{2} i + \left(i +1 - \dfrac{n}{2} \right)^{2} (n-i-1) について整理すると、

\begin{aligned} \Big(i & - \dfrac{n}{2} \Big)^{2} i + \left(i +1 - \dfrac{n}{2} \right)^{2} (n-i-1) \\ &=(n-3)i^{2}- (n-3)(n-1)i +\dfrac{n-1}{4}\left( n^{2}-4n+4 \right)\\ &=(n-3)\left(i - \dfrac{n-1}{2} \right)^{2}- (n-3)\cdot\dfrac{(n-1)^{2}}{4} +\dfrac{n-1}{4}\left( n^{2}-4n+4 \right)\\ &=(n-3)\left(i - \dfrac{n-1}{2} \right)^{2} +\dfrac{n-1}{4} (n^{2}-4n+4 -(n^2+4n+3))\\ &=(n-3)\left(i - \dfrac{n-1}{2} \right)^{2} +\dfrac{n-1}{4}\\ \end{aligned}

以上より、

\begin{aligned} V\left[ Y_{n} \right] &=\dfrac{1}{n-1}\sum_{i=1}^{n-2} P(Y_{n-1}=i) \left\{ (n-3) \left(i - \dfrac{n-1}{2} \right)^{2} +\dfrac{n-1}{4} \right\}\\ &=\dfrac{n-3}{n-1}\left\{\sum_{i=1}^{n-2} \left(i - \dfrac{n-1}{2} \right)^{2} P(Y_{n-1}=i) \right\}+\dfrac{1}{4}\\ &=\dfrac{n-3}{n-1}\ V[Y_{n-1}] +\dfrac{1}{4} \\ \end{aligned}

分散の導出

V[Y_{n}]=\dfrac{n}{12} が成立することを帰納法により証明する。

n=3 のとき、

\begin{aligned} V\left[ Y_{3} \right] &=\dfrac{0}{2}V[Y_{2}]+\dfrac{1}{4} \\ &=\dfrac{1}{4}=\dfrac{3}{12} \\ \end{aligned}

よって、V[Y_{3}]=\dfrac{3}{12} となり、成立する。

n=k のとき、 V[Y_{k}]=\dfrac{k}{12} が成立する場合、

\begin{aligned} V[Y_{k+1}] &=\dfrac{k-2}{k} \cdot \dfrac{k}{12} + \dfrac{1}{4} \\ &=\dfrac{k-2}{12} + \dfrac{3}{12} \\ &=\dfrac{k+1}{12} \\ \end{aligned}

と表せ、n=k+1 の場合も成立することから、帰納法により n \geq 3 において

V[Y_{n}]= \dfrac{n}{12}

が成立する。

別解

答えが未知の場合は、以下のように地道に解くこともできます。

\begin{aligned} V[Y_{n}] &=\dfrac{n-3}{n-1}\ V[Y_{n-1}] +\dfrac{1}{4} \\ &=\dfrac{n-3}{n-1}\left( \dfrac{n-4}{n-2}\ V[Y_{n-2}]+ \dfrac{1}{4} \right) +\dfrac{1}{4} \\ &=\dfrac{1}{4} \left(1+ \dfrac{n-3}{n-1} + \dfrac{(n-3)(n-4)}{(n-1)(n-2)} + \cdots +\dfrac{(n-3)(n-4)}{(n-1)(n-2)} \cdots \dfrac{1}{3} \right) \\ &=\dfrac{1}{4(n-1)(n-2)} \left( (n-1)(n-2) + (n-2)(n-3) + (n-3)(n-4) + \cdots + 2\cdot 1 \right) \\ &=\dfrac{1}{4(n-1)(n-2)}\sum_{i=1}^{n-2}i(i+1) \\ \end{aligned}

ここで、\sum_{i=1}^{n}i(i+1) については

\begin{aligned} \sum_{i=1}^{n}i(i+1) &=\sum_{i=1}^{n} \left( i^{2}+i \right) \\ &=\dfrac{n(n+1)(2n+1)}{6} + \dfrac{n(n+1)}{2} \\ &=\dfrac{n(n+1)}{6}(2n+1+3) \\ &=\dfrac{n(n+1)(n+2)}{3} \\ \end{aligned}

以上より、

\begin{aligned} V[Y_{n}] &=\dfrac{1}{4(n-1)(n-2)}\sum_{i=1}^{n-2}i(i+1) \\ &=\dfrac{1}{4(n-1)(n-2)}\dfrac{(n-2)(n-1)n}{3} \\ &=\dfrac{n}{12} \end{aligned}

Discussion