はじめに
今回は統計検定1級より 2013年 統計数理 問題2 の解答を記載します。
正規分布の条件付き確率に関する問題です。
変数変換により、条件付き確率の計算を簡略化するのがポイントです。
問題については著作物のため割愛します。
前置き
条件付き確率の計算の簡略化について説明します。
互いに独立でない確率変数 X,Y について、Y,g(X,Y) が独立であれば、Z=g(X,Y) として、( g は x について単調増加または単調減少)
P(X=x,Y=y)=P(Z=g(x,y),Y=y)∂z(=g(x,y))∂x=P(Z=g(x,y))P(Y=y)∂x∂g(x,y)1
が成り立ちます。
これを利用して、X∣Y=y について、X を Y とは独立な確率変数 Z=g(X,Y) に変換した場合、確率関数は
P(X=x∣Y=y)=P(Y=y)P(X=x,Y=y)=P(Y=y)P(Z=g(x,y))P(Y=y)∂x∂g(x,y)1=P(Z=g(x,y))∂x∂g(x,y)1
となり、計算を簡略化できる場合があります。
[1]
正規分布においては無相関と独立は同値である。
よって、Cov[Yn,Xi−nYn]=0 を示せばよい。(i=1, ... ,n)
まず、Yn の期待値、分散については
E[Yn]V[Yn]=E[X1+⋯+Xn]=nμ=V[X1+⋯+Xn]=nσ2
となる。よって、Yn と Xi−Yn/n の共分散は
Cov[Yn,Xi−nYn]=Cov[X1+⋯+Xn,Xi]−n1Cov[Yn,Yn]=Cov[Xi ,Xi]−n1V[Yn]=V[Xi]−n1V[Yn]=σ2−n1⋅nσ2=0
以上より、Yn と X1−nYn は独立である。
[2]
X1∣Yn=yn の分布について P(X1=x1∣Yn=yn) を求めると、
P(X1=x1∣Yn=yn)=P(Yn=yn)P(X1=x1,Yn=yn)
となるが、X1 と Yn は独立ではないため計算が複雑になる。
そこで、W1=X1−nYn とし、X1 を W1 に変換すると、[1]より W1,Yn は独立であるため、計算を簡略化することができる。
X1=x1,Yn=yn のとき、 W1=x1−nyn, ∂x1∂(x1−nyn)=1 となることから、
P(X1=x1∣Yn=yn)=P(Yn=yn)P(X1=x1,Yn=yn)=P(Yn=yn)P(W1=x1−nyn,Yn=yn)=P(Yn=yn)P(W1=x1−nyn)P(Yn=yn)=P(W1=x1−nyn)
W1 の分布は
E[W1]=E[X1]−n1E[Yn]=σ−n1nσ=0
V[W1]=V[X1−nYn]=V[nn−1X1−n1(X2+⋯+Xn)]=n21{(n−1)2+(n−1)}σ2=nn−1σ2
よって、W1∼N(0,nn−1σ2)
ゆえに、X1∣Yn=yn の確率関数は、
P(X1=x1∣Yn=yn)=P(W1=x1−nyn)=2πnn−1σ21exp⎩⎨⎧−2nn−1σ2w12⎭⎬⎫w1=x1−yn/n=2πnn−1σ21exp⎩⎨⎧−2nn−1σ2(x1−nyn)2⎭⎬⎫
となる。以上より、
X1∣Yn=yn∼N(nyn,nn−1σ2)
[3]
[2]と同様に、Yk−1を Yk に独立な確率変数に変換することで、計算を簡略化する。
今回の場合は [1]より Yk と Xi−kYk(i=1,…,k) が独立であることから、Yk−1 を Wk=Xk−kYk に変換する。
Wk=Xk−kYk=Yk−Yk−1−kYk=kk−1Yk−Yk−1 と変形すると、
Yk−1=yk−1,Yk=yk のとき、Wk=kk−1yk−yk−1, ∂yk−1∂(kk−1yk−yk−1)=1 である。
ゆえに、Yk−1∣Yk=yk の確率関数は
P(Yk−1=yk−1∣Yk=yk)=P(Yk=yk)P(Yk−1=yk−1,Yk=yk)=P(Yk=yk)P(Wk=kk−1yk−yk−1,Yk=yk)=P(Yk=yk)P(Wk=kk−1yk−yk−1)P(Yk=yk)=P(Wk=kk−1yk−yk−1)
[3] の W1 と同様にして Wk∼N(0,kk−1σ2) である。
よって、
Yk−1∣Yk=yk ∼N(kk−1yk,kk−1σ2)
[4]
今回は Yk−1 を残し、Yk を Xk=Yk−Yk−1 に変換する。また、∂yk∂(yk−yk−1)=1 である。
fk−1(yk−1∣yk) については、
fk−1(yk−1∣yk)=P(Yk=yk)P(Yk−1=yk−1,Yk=yk)=P(Yk=yk)P(Yk−1=yk−1,Xk=yk−yk−1)=P(Yk=yk)P(Yk−1=yk−1)P(Xk=yk−yk−1)
となる。また、gn(yn) については以下のように表せる。
gn(yn)=P(Yn=yn)
ゆえに、
{k=2∏nfk−1(yk−1∣yk)}gn(yn)=P(Y2=y2)P(Y1=y1)P(X2=y2−y1)P(Y3=y3)P(Y2=y2)P(X3=y3−y2)⋯P(Yn=yn)P(Yn−1=yn−1)P(Xn=yn−yn−1)P(Yn=yn)=P(Y1=y1){k=2∏nP(Xk=yk−yk−1)}
ここで、Y1=X1,y1=x1,yk−yk−1=xk(k=2, … ,n) と置き換えれば、
{k=2∏nfk−1(yk−1∣yk)}gn(yn)={k=1∏nP(Xk=xk)}
となる。以上より、{∏k=2nfk−1(yk−1∣yk)}gn(yn) は X1, …, Xn の同時分布の確率密度関数となる。
Discussion