0. 背景
統計検定 1 級の勉強の対策の一環として、現代数理統計学の基礎という参考書を勉強していた。この参考書には著者のサポートサイトが存在し、章末問題の解答や補足・訂正がある。また、著者は大学で統計学の基礎の講義をしており、その際のテスト問題 (基礎編・発展編) も掲載されている。このテスト問題にも著者の解答がついているものの、解法に至る思考プロセスや解法の難しさの観点でやや難解なものがいくつか存在すると自分は考えている。本書は統計検定 1 級の参考書として有名であり、著者以外にも解説を Blog にまとめている方は何人かいるものの、発展編の解説記事を執筆している方は (自分の見た限りでは) あまりいなかった。そこで本記事は、発展編のテストの解説記事を読者の理解を助けるためと自らの統計学の基礎的な部分に対する理解を深めるために記しておく。誤り等がいくつかあるかもしれないので、都度指摘していただけると幸いだ。
1. 解答
問 1
(1) 連続型確率関数の定義から、定義される全区間の確率関数の積分が 1 となれば良く、
∫−∞∞fX(x)dx=∫−11C(1−∣x∣)dx=2C∫01(1−x)dx(∵被積分関数は偶関数)=2C[x−21x2]=C=1,
以上より C=1 。
(2) 連続型確率変数の変数変換は分布関数の変換を行った後、該当の変数で微分すれば良い。また、Yの範囲は Y=∣X∣であることより、Y≥0 。このことに注意した上で Y の確率密度関数 fY(y)、分布関数 FY(y) として、
(a)0≤y<1 のとき
FY(y)=P(Y≤y)=P(∣X∣≤y)=P(−y≤X≤y)=∫−yyfX(x)dx=2∫0yfX(x)dx
∴fY(y)=dydFY(y)=2fX(y)=2(1−y).
(b)y≥1 のとき fY(y)=0.
以上より、Yの確率密度関数は
{2(1−y)0(0≤y<1)(y≥1)
(3)(2) と同様に考えると、Z=X2 より Z≥0 であることに注意し Z の確率密度関数 fZ(z)、分布関数 FZ(z) として、
(a)0≤z<1 のとき
FZ(z)=P(Z≤z)=P(X2≤z)=P(−z≤X≤z)=∫−zzfX(x)dx=2∫0zfX(x)dx,
fZ(z)=dzdFZ(z)=2⋅(2z1)fX(z)=z1(1−z).
(b)z≥1 のとき fZ(z)=0 .
以上より、Zの確率密度関数は
⎩⎨⎧z1(1−z)0(0≤z<1)(z≥1)
問 2
(1) 条件付き確率関数の期待値・分散の公式を用いると、
期待値は
E[X]=EY[EX[X∣Y=y]]=EY[μ](∵X∣Y=y∼N(μ,y))=μ,
分散は
Var(X)=VarY(EX[X∣Y=y])+EY(VarX[X∣Y=y])=VarY(μ)+EY(y)=∫−∞∞fY(y)dy=∫0∞Γ(α)1(β1)αxα−1e−x/βdx=Γ(α)1∫0∞βsα−1e−sds(s=x/β)=Γ(α)βΓ(α+1)=αβ,
なお、上記の式では、ガンマ分布の確率密度関数を
fZ(z)=⎩⎨⎧Γ(α)1(β1)αzα−1e−z/β0(z≥0)(z<0)
と定義している。なお、ガンマ関数は
Γ(α)=∫0∞tα−1e−tdt.
さらに、E[(X−μ)4] も同様に条件付き期待値を考えて
E[(X−μ)4]=EY[EX[(X−μ)4∣Y=y]]
ここで、Z=X−μ とすると、Z∣Y=y∼N(0,y) だから、
E[Z4∣Y=y]=∫−∞∞z4⋅2πy1exp(−2y1z2)dz=[−2πyyz3exp(−2y1z2)]−∞∞+3∫−∞∞2πyz2exp(−2y1z2)dz=3{[−2πyy2exp(−2y1z2)]−∞∞+∫−∞∞2πyy2exp(−2y1z2)dz}=3y2(∵∫−∞∞2πy1exp(−2y1z2)=1.)
よって、
EY[3Y2]=∫0∞3y2⋅Γ(α)1(β1)αyα−1e−y/βdy=Γ(α)3∫0∞(β1)αyα+1e−y/βdy=Γ(α)3∫0∞β2sα+1e−sds(s=y/β)=Γ(α)3β2Γ(α+2)=3β2(α+1)α.
(2) Z=X−μ とおくとき、(1) から Z∣Y=y∼N(0,y) だから、
MZ(t)=E[etZ]=EY[EZ[etZ∣Y=y]],
EZ[etZ∣Y=y]=∫0∞exp(tz)⋅2πy1exp(−2y1z2)dz=∫0∞2πy1exp{−2y1(z−ty)2+2t2y}dz=exp(2t2y),
∴MZ(t)=EY[et2Y/2]=∫0∞et2y/2⋅Γ(α)1(β1)αyα−1e−y/βdy=∫0∞Γ(α)1⋅yα−1(β1)αexp{−(β1−2t2)y}dy=(β1)α{(β1−2t2)}−α=(1−2βt2)−α.
(3) (2) の積率母関数の収束値を考えれば良い。β=1/α であるので、
α→∞lim(1−2βt2)−α=α→∞lim(1−2αt2)−α=α→∞lim{(1−2αt2)−t22α}2t2=exp(2t2)(∵n→∞lim(1+n1)n=e)
これは標準正規分布の積率母関数だから、連続性定理から Z は標準正規分布に従う。
(4) W=(X−μ)2/Y とおくとき、
Cov(W,Y)=E[Y(X−μ)2⋅Y]−E[Y(X−μ)2]E[Y]=Var(X)−EY[EX[Y(X−μ)2∣Y=y]]E[Y]=αβ−EY[YY]E[Y](∵VX[X∣Y=y]=y)=αβ−αβ=0.(∵E[Y]=αβ)
問 3
(1) (X,Y)=(Rcosθ,Rsinθ) なる極座標変換を行った時、変数変換のヤコビアンは
∂(R,θ)∂(X,Y)=det(cosθsinθ−RsinθRcosθ)=R,
だから、(R,θ) に関する確率密度関数は
fR,θ(R,θ)=fX,Y(X,Y)R=fX,Y(Rcosθ,Rsinθ)=C⋅h(R2),
となる。また、正規化定数 C は fR,θ(R,θ) が確率密度関数であることから
∫02π∫0∞fR,θ(R,θ)dRdθ∴C=C∫02πdθ∫0∞R⋅h(R2)dR=C⋅π∫0∞h(s)ds(s=R2,ds=2RdR)=1,=π1
また、変数変換を利用すれば
E[X2+Y2X2]=E[R2R2cos2θ]=E[cos2θ].
ここで、θ は式 (20) の途中式から一様分布 fθ(θ)=2π1 に従うので、
E[cos2θ]=2π1∫02πcos2θdθ=2π1∫02π21+cos2θdθ=4π1[θ+21sin2θ]02π=21.
(2) (1) と同様に変数変換を行えば良い。ただし、A={(x,y)∣0<x<∞,0<y<∞} であることより、極座標変換後の定義域は 0<R<∞,0<θ<π/2 となる。このことに注意して正規化定数 C を求めると、
∫0∞dR∫02πdθC⋅Rh(R2)∴C=4π⋅C=1,=π4.
(3) ρ の条件は fR,θ(R,θ) が確率密度関数になる必要があるので収束する必要がある。ここで ρ2≥1 であるときに h(⋅) が単調減少関数であることから
∫−∞∞∫−∞∞C⋅h((x+ρy)2+(1−ρ2)y2)dxdy≥∫−∞∞∫−∞∞C⋅h((x+ρy)2)dxdy=∫−∞∞C⋅h(s2)ds∫−∞∞dy
と不等式で評価でき、右辺は発散することから存在しない。ゆえに ∣ρ∣<1 。
また、x2+2ρxy+y2=(x+ρy)2+(1−ρ2)y2 と平方完成できることから、
{X+ρY1−ρ2Y=Rcosθ=Rsinθ
という変数変換を考えると、ヤコビアンは
∂(R,θ)∂(X,Y)=(cosθ−(ρ/1−ρ2)sinθ(1/1−ρ2)sinθ−(ρ/1−ρ2)sinθ−R(sinθ+ρ/1−ρ2cosθ)R/1−ρ2cosθ)=(R/1−ρ2)cos2θ−Rρ/(1−ρ2)⋅sinθcosθ+(R/1−ρ2)sin2θ+Rρ/(1−ρ2)⋅sinθcosθ=R/1−ρ2,
だから、fR,θ(R,θ)=C⋅R/1−ρ2h(R2) となる。また、正規化定数 C の値は (1) と同様に考えて、
∫0∞dR∫02πdθC⋅R/1−ρ2h(R2)∴C=C⋅1−ρ22π⋅21=1−ρ2Cπ=1,=π1−ρ2
問 4
求める分布の積率母関数を考える。積率母関数を M(t) として
M(t)=E[en3/4(Xˉ−p)t]
ここで、S=i=1∑nXi とおくと Xˉ=S/n であることより、
M(t)=E[e(t/n1/4S)⋅e−4n1/4t](∵p=4/n)=e−4n1/4t⋅E[e(t/n1/4S)].
また、X1,⋯Xn,i.i.d∼Ber(p) だから、
E[e(t/n1/4S)]={x=0∑1et/n1/4x⋅px(1−p)1−x}n={e(t/n1/4)⋅(4/n)+(1−4/n)}n,
と書ける。ここで、上式で指数関数の Taylor 展開より、
et/n1/4=1+n1/4t+21(n1/4t)2+o(n−1)
と近似できるから、
E[et/n1/4S]={n4+n3/44t+n2t2+0(n−1)+1−n4}n=(1+n3/44t+n2t2+o(n−1))n,
さらに、M(t) に対して自然対数を底とする対数を取ると、
logM(t)=−4n1/4t+nlog{1+n3/44t+n2t2+o(n−1)} ≃−4n1/4t+n(n3/44t+n2t2+o(n−1))(∵log(1+x)≃x)=2t2+o(1),
と近似できる。したがって、M(t)→e2t2=e(2)2t2/2 なので、N(0,4) の積率母関数に一致する。ゆえに、
n3/4(Xˉ−p)→dN(0,4).
問 5
VX2=n−11i=1∑n(Xi−Xˉ)2=n−11i=1∑n{(Xi−μ)−(Xˉ−μ)}2=n−11i=1∑n{(Xi−μ)2−2(Xˉ−μ)(Xi−μ)+(Xˉ−μ)2}=n−11{i=1∑n(Xi−μ)2−2(Xˉ−μ)i=1∑n(Xi−μ)+n(Xˉ−μ)2}=n−11{i=1∑n(Xi−μ)2−n(Xˉ−μ)2},
と変形でき、n(Xˉ−μ)→dN(0,σ2) であることから与式を変形して
n(VX2−σ2)=n−1n⋅n⋅{n1i=1∑n(Xi−μ)2−σ2}−n−1n⋅n⋅(Xˉ−μ)2+n−1nσ2
と表せる。ここで、Xˉ−μ→p0 だからスラツキーの定理より、n(Xˉ−μ)2→d0 となる。また、これは n(Xˉ−μ)→p0 でもある。
また、(Xi−μ)2 は期待値 E[(Xi−μ)2]=σ2、 分散 Var((Xi−μ)2)=E[(Xi−μ)4]−E[(Xi−μ)2]2 であり、
E[(Xi−μ)4]=∫−∞∞(x−μ)4⋅2πσ21exp{−2σ21(x−μ)2}dx=∫−∞∞s4⋅2πσ21exp{−2σ21s2}ds(s=x−μ)=[−σ2⋅2πσ21⋅s3exp{−2σ21s2}]−∞∞+3σ2∫−∞∞s2⋅2πσ21exp{−2σ21s2}ds=3σ4
より、Var((Xi−μ)2)=3σ4−σ4=2σ4 。ゆえに中心極限定理より
n{n1⋅i=1∑n(Xi−μ)2−σ2}→dN(0,2σ2),
となるので、スラツキーの定理より n(VX2−σ2)→dN(0,2σ2) 。
次に n(F−1) を考える。ここで先ほど求めた式 n(VX2−σ2) が使える形に与式を変形するために、VX2,VY2 を因数分解すると、
n(F−1)=n(VY2VX2−1)=n((VX2−σ2)(VY21−σ21)+σ2VX2+VY2σ2−2n)=n(VX2−σ2)(VY21−σ21)+n(σ2VX2−1)+n(VY2σ2−1),
と分解できる。$\sqrt{n}(V_X^2 - \sigma^2) \to {}_d N(0, 2\sigma^4),\hspace{1mm}
\sqrt{n}(V_Y^2 - \sigma^2) \to {}_d N(0, 2\sigma^4)$ であり、VY2→pσ2 であることを用いて、スラツキーの定理より、
n(VX2−σ2)(VY21−σ21)→d0,
であり、これは 0 に確率収束する。また、デルタ法を用いて g(σ2)=1/σ2 に対して g′(σ2)=−1/σ4 だから
n(VY21−σ21)→dN(0,2/σ4),
となる。したがって、
n(VY2σ2−1)=σ2⋅n(VY21−σ21)→dN(0,2).
同様に
n(σ2VX2−1)→dN(0,2),
であるから、n(F−1)→dN(0,4) 。
問 6
(a) p に対する尤度関数 L(p) は
L(p)=i=1∏np(1−p)xi
だから、フィッシャー情報量 I(p) は
I(p)=−E[dp2d2logL(p)]=−i=1∑nE[dp2d2{logp+Xilog(1−p)}]=−i=1∑n{−p21−(1−p)21E[Xi]}.
ここで、
E[Xi]1−s1∴i=1∑∞(1−p)x=i=1∑∞x⋅p(1−p)x,=1+s+s2+⋯=k=0∑∞sk,=p1,(∵k→x,s→1−p)
両編を p について微分して
i=1∑∞x(1−p)x−1∴E[Xi]=p21,=p1−p
以上より、
I(p)=−i=1∑n{−p21−p(1−p)1}=p2(1−p)n
また、 p に対する最尤推定量 p^ はlogL(p) の微分が 0 になるときを考えれば良いので、
dpdlogL(p)p^n−1−p^1i=1∑nXip^{i=1∑nXi+n}∴p^=i=1∑n(p1−1−pXi)=0,=0,=n,=1+Xˉ1.(n1i=1∑nXi)
n(p^−p) の漸近分布は
E[Xˉ]=p1−p=p1−1,
より、p の不偏推定量は E[1+Xˉ1]=p より、1+Xˉ1 。また分散は、クラメール・ラオの不等式の下限が
V(p)≥I(p)1,
このように表されるので、V[1+Xˉ1]=np2(1−p)。ゆえに n(p^−p)→dN(0,p2(1−p)) に収束する。
(b) θ のフィっしゃ情報量 I(θ) は θ=(1−p)/p, p=1/(1+θ) だから (a) の尤度関数を変形して
L(θ)dθ2d2logL(θ)=i=1∏n(1+θ1)(1+θθ)xi,=dθ2d2{−nlog(1+θ)+i=1∑nXilog1+θθ}=n⋅(1+θ)21+{θ21−(1+θ)21}⋅nθ=θ(1+θ)n,
より、クラメール・ラオの下限はこの逆数の θ(1+θ)/n となる。
(c) θ の最尤推定量 θ^ は
dθdlogL(θ)=−1+θn+θ1i=1∑nXi−1+θ1i=1∑nXi,
を 0 とする θ だから、
−1+θ^n+nXˉ(θ^1−1+θ^1)∴θ^=0,=Xˉ.
一方、θ の不偏推定量は E[Xˉ]=p1−1=θ だから、θ^ は θ の不偏推定量。ゆえに漸近分布 n(θ^−θ)→dN(0,θ(1+θ)).
(d) デルタ法より n(g(Xˉ)−g(θ))→dN(0,(g′(θ))2⋅θ(1+θ)) なので、漸近分散が 1 となるには、
g′(θ)∴g(θ)=θ(1+θ)1,=θ+1+θ1/θ+1/1+θ,=∫θ(1+θ)1dθ=2log(θ+1+θ).
問 7
(a) E[Xi]=npi,Var(Xi)=npi(1−pi),Cov(Xi,Xj)=−npipj であることを利用する。
E[Yi]Var(Y1)=E[X1+X3]=E[X1]+E[X3]=nθ,=Var(X1)+Var(X3)+2Cov(X1,X3)=np1(1−p1)+np3(1−p3)−2np1p3=n(p1+p3)−n(p1+p3)2=nθ(1−θ).
(b) 共分散の公式を利用して
Cov(Y1,Y2)=Cov(X1+X3,X2+X3)=Cov(X1,X2)+Cov(X1,X3)+Cov(X2,X3)+Var(X3)=−np1p2−np1p3−np2p3+np3(1−p3)=−n(1−θ)(1−θ)−n(1−θ)(1−2θ)−n(1−θ)(1−2θ)+2nθ(1−2θ)=−n(1−θ)2.
(c) θ^U=(Y1+Y2) の平均は、
E[θ^U]=(nθ+nθ)/2n=θ.
なので、θ^U は θ の不偏推定量。
分散は、
Var(θ^U)=4n21⋅{Var(Y1)+Var(Y2)+2Cov(Y1,Y2)}=4n21⋅n⋅{2θ(1−θ)−2(1−θ)2}=2n(1−θ)(2θ−1),
となる。ゆえに大小関係は 22θ−1=θ−21<θ より
Var(Y1/n)=nθ(1−θ)>2n(1−θ)(2θ−1)=Var(θ^U),
なる関係が成立する。
2. 参考
https://sites.google.com/site/ktatsuya77/xian-dai
https://www.amazon.co.jp/現代数理統計学の基礎-共立講座-数学の魅力-久保川-達也/dp/4320111664/ref=sr_1_1?adgrpid=54805103953&dib=eyJ2IjoiMSJ9.VfpslZPA1hJcfZ6GlybM-BZElkBWvqf_Kgatswm5-uX-Rrr_zfpqFGXO-NlbMC9zUyFJWtoYVeHn0o3hzvE5fUzz34WzR2P5xlIUbq0M3-04VS8sdgU9Im81G6IDCTe92fqP2zERyXknA-SxuJo6c4rID80O3TITMkCj8zIqUUtsjOAvwy2MEhwNtfo6XTrARa_uQcxbniCxvdty1ozAc1drBy7jb9CMkeEJLzVdivESA6t7XFhBQd8abcBqrl1ioB1rykxF7eVJQhTDVYlUZd9GAsxV3Na-3QayAl4fXw4.dB_yUwhlbUtbO47o1oxG1p9Ni0qdcFS5Sxi-dufB18E&dib_tag=se&hvadid=679073105221&hvdev=c&hvlocphy=1009298&hvnetw=g&hvqmt=e&hvrand=6287229992004864408&hvtargid=kwd-332372924816&hydadcr=27703_14738805&jp-ad-ap=0&keywords=現代数理統計学の基礎&qid=1732920700&sr=8-1
- 他の方が書かれた参考書の章末問題 + テスト (基礎編) の解説記事(参考書を読む上で非常に理解の助けになった)
https://qiita.com/toukei/items/f9c19bf506b9894ba04e
Discussion