はじめに
今回は統計検定1級より 2016年 統計数理 問題5 の解答を記載します。
欠測の発生が完全にランダムであるかを検定する、MCAR検定に関する問題です。
検定が同等であることを示す問題[3]について、解答では狭義単調増加の関数による変数変換の場合には、検定が同等であるとしています。これについて補足します。
また、検定統計量 F と d^{2} の関係式に関連して、 F 分布からベータ分布の変数変換についても説明します。
問題については著作物のため割愛します。
前置き
"検定が同等である"について
”検定が同等である”については、解答では狭義単調増加の関数による変数変換の場合には、検定が同等であるとしています。補足説明の前にまず、"検定が同等である"に関して定義を明確にします。"検定が同等である"の定義については、解答等から、以下のように推察されます。
検定統計量 X を用いる検定 A と 検定統計量 Y を用いる検定 B について、Y=g(X) と表される場合、
"両検定の有意水準を \alpha として、観測値 x が、検定 A で棄却されるならば、g(x)(=y) も検定 B で棄却され、逆も成り立つ"
記号で表現すると、検定 A,Bの棄却域を R_{A},R_{B} として "R_{B}=\{g(x)(=y)| x\in R_{A} \}" となることを意味します。
上記定義の下では、片側検定において、狭義単調増加の関数による変数変換の場合は、検定は同等であるといえます。
以下、証明です。
X,Y が有意水準 \alpha の片側検定において、上側 \alpha の点をそれぞれ x_{\alpha}, y_{\alpha} とすると、
検定 A の棄却域は X\gt x_{\alpha}、検定 B の棄却域は Y\gt y_{\alpha} であるから、 y_{\alpha}=g(x_{\alpha}) を満たせば、上記の定義を満たすことになる。
有意水準 \alpha については
\begin{aligned}
\alpha=P(X\gt x_{\alpha})=P(Y\gt y_{\alpha})
\end{aligned}
が成立する。
また、 g(x) が狭義単調増加であるとき、X\gt x_{\alpha} \leftrightarrow g(X) \gt g(x_{\alpha}) であるから、
\begin{aligned}
\alpha
&=P(X\gt x_{\alpha})\\
&=P(g(X) \gt g(x_{\alpha}) )\\
&=P(Y \gt g(x_{\alpha}) )
\end{aligned}
となる。以上より、 y_{\alpha}=g(x_{\alpha}) となることから、検定 A の棄却域は X\gt x_{\alpha}、 B の棄却域は Y\gt g(x_{\alpha})(=y_{\alpha}) となる。
以上より、x が検定 A で棄却されるならば、 g(x) も B の棄却され、その逆も成り立つことから、狭義単調増加の変数変換においては検定は同等である。(下側の場合も同様です。)
F 分布とベータ分布の変換について
本問題で登場する d^{2} について、F \sim F(1,n-2) として、
\dfrac{d^{2}}{n-1}=\dfrac{F}{n-2+F} は Beta\left(\dfrac{1}{2},\dfrac{n-2}{2} \right)に従います。
さらに一般化すれば X \sim F(n_{1},n_{2}) として、Y=\dfrac{X}{X+\dfrac{n_{2}}{n_{1}}} は Be\left( \dfrac{n_{1}}{2}, \dfrac{n_{2}}{2} \right)
に従います。証明は [補足] をご覧ください。
[1]
\begin{aligned}
d^{2}
&=\dfrac{1}{S^{2}}\left\{m(\bar{X}_{(1)}-\bar{X})^{2} + (n-m)(\bar{X}_{(0)}-\bar{X})^{2} \right\} \\
&=\dfrac{1}{S^{2}}\left\{
m\left(\bar{X}_{(1)}-\dfrac{m\bar{X}_{(1)}+(n-m)\bar{X}_{(0)}}{n}\right)^{2}
+(n-m)\left(\bar{X}_{(0)}-\dfrac{m\bar{X}_{(1)}+(n-m)\bar{X}_{(0)}}{n}\right)^{2} \right\} \\
&=\dfrac{1}{S^{2}}\left\{
m\left(\dfrac{(n-m)\bar{X}_{(1)}-(n-m)\bar{X}_{(0)}}{n}\right)^{2}
+(n-m)\left(\dfrac{-m\bar{X}_{(1)}+m\bar{X}_{(0)}}{n}\right)^{2} \right\} \\
&=\dfrac{1}{S^{2}}\left\{
m\left( \dfrac{n-m}{n} \right)^{2}\left(\bar{X}_{(1)}-\bar{X}_{(0)}\right)^{2}
+(n-m)\left( \dfrac{m}{n} \right)^{2}\left(\bar{X}_{(1)}-\bar{X}_{(0)}\right)^{2} \right\}\\
&=\dfrac{1}{S^{2}}\dfrac{m(n-m)}{n^{2}} (n-m+m)
\left(\bar{X}_{(1)}-\bar{X}_{(0)}\right)^{2} \\
&=\dfrac{1}{S^{2}}\dfrac{m(n-m)}{n}
\left(\bar{X}_{(1)}-\bar{X}_{(0)}\right)^{2} \\
\end{aligned}
[2]
F=\dfrac{SS_{B}}{SS_{W}/(n-2)} より、 SS_{W}=\dfrac{n-2}{F}SS_{B}
SS_{T} = SS_{B}+SS_{W}=\left(1+\dfrac{n-2}{F} \right)SS_{B} となることから、
\begin{aligned}
d^{2}
&=\dfrac{SS_{B}}{SS_{T}/(n-1)} \\
&=\dfrac{n-1}{1+\dfrac{n-2}{F}} \\
&=\dfrac{(n-1)F}{n-2+F}
\end{aligned}
[3]
まず、2標本 t 検定の検定統計量 T と F の関係については
\begin{aligned}
F
&=\dfrac{SS_{B}}{\dfrac{}{}SS_{W}/(n-2)}\\
&=\dfrac{m(\bar{X}_{(1)}-\bar{X})^{2} + (n-m)(\bar{X}_{(0)}-\bar{X})^{2}}{SS_{W}/(n-2)}\\
&=\dfrac{1}{SS_{W}/(n-2)}\dfrac{m(n-m)}{n}
\left(\bar{X}_{(1)}-\bar{X}_{(0)}\right)^{2}
\end{aligned}
\begin{aligned}
T
&=\dfrac{\bar{X}_{(1)}-\bar{X}_{(0)}}
{\sqrt{\dfrac{(n-1)\cdot\dfrac{1}{n-1}\sum_{i=1}^{m}(X_{i}-\bar{X}_{(1)})^{2}
+(n-m-1)\cdot\dfrac{1}{n-m-1}\sum_{i=m}^{n}(X_{i}-\bar{X}_{(0)})^{2}}{n-2}
\left( \dfrac{1}{m} + \dfrac{1}{n-m} \right)}}\\
&=\dfrac{\bar{X}_{(1)}-\bar{X}_{(0)}}
{\sqrt{\dfrac{SS_{W}}{n-2} \cdot \dfrac{n}{m(n-m)}} }\\
&=\dfrac{1} {\sqrt{SS_{W}/(n-2) }}
\sqrt{\dfrac{m(n-m)}{n}}
(\bar{X}_{(1)}-\bar{X}_{(0)} )\\
\end{aligned}
よって、T^{2}=F となる。
検定が同等である条件は、今回の例では ”検定の有意水準を \alpha として、観測値 t が 2 標本 t 検定で棄却されれば、t^{2}\left(=f\right) も F による検定で棄却され、逆も成り立つ" ことである。
まず、T \rightarrow F の変換については、T,F の上側 \alpha の点をそれぞれ t_{\alpha}, f_{\alpha} とすると、
両検定の有意水準を \alpha として、2 標本 t 検定の棄却域は |T| \gt t_{\alpha/2}、 F による検定の棄却域は F \gt f_{\alpha} である。
有意水準 \alpha については
\begin{aligned}
\alpha=P( |T| \gt t_{\alpha/2})=P(F \gt f_{\alpha})
\end{aligned}
を満たす。
また、|T| \gt t_{\alpha/2} \leftrightarrow T^{2} \gt t_{\alpha/2}^{2} であるから、
\begin{aligned}
\alpha
&=P( |T| \gt t_{\alpha/2})\\
&=P( T^{2} \gt t^{2}_{\alpha/2})\\
&=P(F \gt t^{2}_{\alpha/2} ) \\
\end{aligned}
よって f_{\alpha} = t_{\alpha/2}^{2} が成り立ち、2 標本 t 検定の棄却域は |T| \gt t_{\alpha/2}、 F による検定の棄却域は F \gt t_{\alpha/2}^{2}(=f_{\alpha}) となる。以上より、観測値 t が 2 標本 t 検定で棄却されれば、t^{2}\left(=f\right) も F による検定で棄却され、逆も成り立つことから、同じ検定であるといえる。
(2 標本 t 検定(両側)と 2 群の分散分析は等しいということになる。)
次に、F \rightarrow d^{2} の変換については、
d^{2}=\dfrac{(n-1)F}{n-2+F}=g(F)
とすると、g(f) は狭義単調増加 ( g'(f) \gt 0 ) である。よって、d^{2} による検定と F による検定は同等であるといえる。
以上より、2 標本 t 検定と d^{2} における検定は、同等の検定であるといえる。
[4]
d^{2} による検定が有意であった場合、欠測時と非欠測時における分布の平均が異なることから、MCARであるとは言えない。また、有意でない場合も欠測時と非欠測時における分布の平均が異なるとは言えないだけであり、欠測・非欠測の分布が等しいとまで結論付けることはできない。
[5]
まず、分散が異なるか否かについては、F 検定を用いることができる。また、分布自体が異なるか否かについては、経験分布(観測値から作成される累積分布関数)の差の最大値を統計検定量としたコルモゴロフ–スミルノフ検定がある。
[補足]
本項では、前置きで記載した以下の変数変換について解説します。
X \sim F(n_{1},n_{2}) とした場合に、Y=\dfrac{X}{X+\dfrac{n_{2}}{n_{1}}} は Beta\left( \dfrac{n_{1}}{2}, \dfrac{n_{2}}{2} \right) に従う。
まず、Y=\dfrac{X}{X+\dfrac{n_{2}}{n_{1}}} を X について解くと
\begin{aligned}
Y&=\dfrac{X}{X+\dfrac{n_{2}}{n_{1}}}\\
\left(X+\dfrac{n_{2}}{n_{1}}\right)Y&=X \\
\dfrac{n_{2}}{n_{1}} Y&=(1-Y)X \\
X&=\dfrac{n_{2}}{n_{1}} \dfrac{ Y}{(1-Y)} \\
\end{aligned}
となる。次に、X=x,Y=y とおき、x を y について微分すると
\begin{aligned}
\dfrac{dx}{dy} = \dfrac{n_{2}}{n_{1}}\dfrac{(1-y-y\cdot(-1))}{(1-y)^{2}} \\
\dfrac{dx}{dy} = \dfrac{n_{2}}{n_{1}} \dfrac{1}{(1-y)^{2}} \\
\end{aligned}
また、Y の値の範囲は [0,1] である。
ここで、X の確率密度関数 f_{X}(x) は
\begin{aligned}
f_{X}(x)&=\dfrac{ \left( \dfrac{n_{1}}{n_{2}} \right)^{\tfrac{n_{1}}{2}} x^{\tfrac{n_{1}}{2}-1}}
{\Beta\left(\dfrac{n_{1}}{2},\dfrac{n_{2}}{2} \right) \left(1+\dfrac{n_{1}}{n_{2}}x \right)^{\frac{n_{1}+n_{2}}{2}} }\\
\end{aligned}
よって Y の確率密度関数 f_{Y}(y) は y は x について単調増加であることから
\begin{aligned}
f_{Y}(y)
&= f_X(x)\left| \dfrac{dx}{dy} \right| \\
&=\dfrac{ \left( \dfrac{n_{1}}{n_{2}} \right)^{\tfrac{n_{1}}{2}} \left( \dfrac{n_{2}}{n_{1}} \dfrac{y}{1-y} \right)^{\tfrac{n_{1}}{2}-1}}
{\Beta\left(\dfrac{n_{1}}{2},\dfrac{n_{2}}{2} \right) \left(1+\dfrac{n_{1}}{n_{2}} \dfrac{n_{2}}{n_{1}} \dfrac{y}{1-y} \right)^{\frac{n_{1}+n_{2}}{2}} } \dfrac{n_{2}}{n_{1}} \dfrac{1}{(1-y)^{2}} \\
&=\dfrac{\left( \dfrac{n_{1}}{n_{2}} \right)^{\tfrac{n_{1}}{2}-\left(\tfrac{n_{1}}{2}-1 \right)-1} y^{\tfrac{n_{1}}{2}-1}
(1-y)^{-\left(\tfrac{n_{1}}{2}-1 \right)-2} }
{\Beta\left(\dfrac{n_{1}}{2},\dfrac{n_{2}}{2} \right) \left(\dfrac{1-y+y}{1-y} \right)^{\frac{n_{1}+n_{2}}{2}} }
\\
&=\dfrac{ y^{\tfrac{n_{1}}{2}-1}
(1-y)^{-\tfrac{n_{1}}{2}-1+\tfrac{n_{1}+n_{2}}{2}} }
{\Beta\left(\dfrac{n_{1}}{2},\dfrac{n_{2}}{2} \right) }
\\
&=\dfrac{ y^{\tfrac{n_{1}}{2}-1}
(1-y)^{\tfrac{n_{2}}{2} -1} }
{\Beta\left(\dfrac{n_{1}}{2},\dfrac{n_{2}}{2} \right) }
\\
\end{aligned}
以上より、
X \sim F(n_{1},n_{2}),\ Y=\dfrac{X}{X+\dfrac{n_{2}}{n_{1}}} としたとき、
Y \sim Beta \left(\dfrac{n_{1}}{2}, \dfrac{n_{2}}{2} \right)
となる。
Discussion