はじめに
大規模計算時代の統計推論のp216,217にでてくる、1パラメータ問題f_\theta(\hat\theta) における信頼区間に対するネイマンの構成方法を取り扱う。
この構成方法がなぜ成り立つか説明します。
理解の手助けにはなるかもですが、完全に説明はできていません。
かなり理解に苦労したので間違っている場合は指摘していただけるとありがたいです。
問題
\hat \theta : 標本相関係数 , f_\theta(\hat\theta) : 標本相関係数の密度関数
\int_{\hat\theta}^1 f_{\hat\theta(lo)}(r)dr=0.025\hspace{5pt},
\hspace{5pt}
\int_{-1}^{\hat\theta}f_{\hat\theta(up)}(r)dr=0.025,
を満たす\hat\theta(lo),\hat\theta(up) をもちいてθの95%信頼区間は次のように構成できる。
\theta \in [\hat\theta(lo),\hat\theta(up)]
解説
わかっているのは、標本相関係数 \hat \theta = 0.498
そして、標本相関係数の密度関数は
f_{\theta}\left(\hat{\theta}\right) = \frac{(n-2)(1-\theta^2)^{\frac{n-1}{2}}(1-\hat{\theta}^2)^{\frac{n-4}{2}}}{\pi} \int_ 0^ \infty \frac{d \omega}{(\cosh \omega - \theta \hat{\theta})^{n-1}}
で与えられる。
一般的な方法
まず考えられる95%信頼区間構成方法は、以下である。
\hat\thetaの密度関数の下側2.5%と上側2.5%のポイントをそれぞれ、\theta(0.025),\theta(0.975)とする。
\int_{-1}^{\theta(0.025)} f_{\hat\theta}(r)dr=0.025 \hspace{5pt},\hspace{5pt}
\int_{\theta(0.975)}^{1} f_{\hat\theta}(r)dr=0.025 \tag{1}
これはf_\theta(\hat\theta) をf_{\hat\theta}(\theta) とみなして、\hat\thetaが与えられたもとで、\thetaがとられる確率をみている。
f_\theta(\hat\theta) : \theta が与えられたもとでの\hat\theta の分布
f_{\hat\theta}(\theta) : \hat\theta が与えられたもとでの \theta の分布 (尤度関数として捉えるということ)
よって、\thetaの分布を考えているので上記の方法で直感的にも95%信頼区間を構成していることがわかる。
ネイマンの構成方法
次にネイマンの構成方法を考える。上記の方法との対応関係がわかればこの方法が成り立つことを示せる。
\int_{\hat\theta}^{1} f_{\hat\theta(lo)}(r)dr=0.025 \hspace{5pt},\hspace{5pt}
\int_{-1}^{\hat\theta} f_{\hat\theta(up)}(r)dr=0.025 \tag{2}
(1)と(2)を比較してみると、積分範囲にある\hat \theta を密度関数と入れ替えてできていることがわかる。
簡単な例でこれが成り立つことを確認してみる。
X\sim N(\mu , \sigma^2)\hspace{3pt},\hspace{3pt}
\hat \theta=\bar X
とすると
(1)の場合は\bar X \sim N(\mu , \frac{\sigma^2}{n})
\begin{align*}
&Pr\left(-1.96 \le \frac{\bar X -\mu}{\sqrt{\frac{\sigma^2}{n}}}\le 1.96\right)\\
&=Pr\left(
\bar X -1.96\sqrt\frac{\sigma^2}{n}
\le \mu \le
\bar X +1.96\sqrt\frac{\sigma^2}{n}
\right) =95 \%
\end{align*}
(2)の場合
(i) Y \sim N(\bar X -1.96\sqrt\frac{\sigma^2}{n} ,\frac{\sigma^2}{n} )
\begin{align*}
&Pr(Y\ge \bar X)\\
&=Pr\left(
\frac{Y-\{\bar X -1.96\sqrt\frac{\sigma^2}{n}\}}{\sqrt\frac{\sigma^2}{n}}
\ge 1.96
\right)= 2.5\%
\end{align*}
(ii)Y \sim N(\bar X +1.96 \sqrt\frac{\sigma^2}{n},\frac{\sigma^2}{n})
\begin{align*}
&Pr(Y\le \bar X)\\
&=Pr\left(
\frac{Y-\{\bar X +1.96\sqrt\frac{\sigma^2}{n}\}}{\sqrt\frac{\sigma^2}{n}}
\le -1.96
\right)= 2.5\%
\end{align*}
よってこの簡単な正規分布の例ではネイマンの構成方法が成り立つことがわかった。
まとめ
感覚的には入れ替えたから成り立ちそうって思うかもしれない。しかし深いところまで説明できない。
参考文献
- B.エフロン,T.ヘイスティ(2020)『大規模計算時代の統計推論: 原理と発展』 藤澤洋徳・井手剛監訳 (共立出版),p.216,217
Discussion