はじめに
標本相関係数の密度関数はかなり複雑な形をしているので、どう導き出されるか見ていってください。
そもそも相関係数についてよくわからない方はこちらの記事をチェック
https://zenn.dev/totopironote/articles/8893534302ba55
問題
今回の問題は、エフロンとヘイスティ(2020)「大規模計算時代の統計推論」の32ページ(3.11)式です。
確率変数(m,v)の同時分布が2変数正規分布に従うときの標本相関係数の確率密度関数です。
mとvの標本相関係数 \scriptsize{\hat{\theta}} は、以下のように書ける。
\hat{θ} = \sum_{i=1}^{n} (m_i-\bar{m})(v_i-\bar{v}) \biggl/ \left[\sum_{i=1}^{n} (m_i-\bar{m})^2 \sum_{i=1}^{n} (v_i-\bar{v})^2\right]^{1/2} \\
ただし, nはデータ数, \hspace{2pt} \bar{m}=\sum_{i=1}^{n} m_i, \hspace{2pt} \bar{v}=\sum_{i=1}^{n} v_i
このとき, \theta の関数としての \scriptsize{\hat{\theta}} の密度関数は,以下のように書ける。
f_{\theta}\left(\hat{\theta}\right) = \frac{(n-2)(1-\theta^2)^{\frac{n-1}{2}}(1-\hat{\theta}^2)^{\frac{n-4}{2}}}{\pi} \int_ 0^ \infty \frac{d \omega}{(\cosh \omega - \theta \hat{\theta})^{n-1}}
この式の導出をします。
導出
\begin{pmatrix}
m\\
v
\end{pmatrix} \thicksim N(\mu,\Sigma) \hspace{2pt} ,
\mu = \begin{pmatrix}
\mu_m\\
\mu_v
\end{pmatrix} ,\hspace{2pt}
\Sigma = \begin{pmatrix}
\sigma_m^2 & \theta \sigma_m \sigma_v \\
\theta \sigma_m \sigma_v & \sigma_v^2
\end{pmatrix}
と仮定する。
不偏共分散行列Sは次のように書ける。
(n-1)S = \begin{bmatrix}
\sum_{i=1}^{n} (m_i-\bar{m})^2 & \sum_{i=1}^{n} (m_i-\bar{m})(v_i-\bar{v}) \\
\sum_{i=1}^{n} (m_i-\bar{m})(v_i-\bar{v}) & \sum_{i=1}^{n} (v_i-\bar{v})^2
\end{bmatrix}
W = (n-1)S = \begin{pmatrix}
w_{11} & w_{12} \\
w_{12} & w_{22}
\end{pmatrix}
とおくと,
W \thicksim W_2(n-1, \Sigma)
となる。
\hat{\theta} = \frac{w_{12}}{\sqrt{w_{11}w_{22}}} = \frac{w_{12} \bigl/ \sigma_m \sigma_v}{\sqrt{\frac{w_{11}}{\sigma_m^2} \frac{w_{22}}{\sigma_v^2}}},
D = \begin{pmatrix}
\sigma_m^2 & 0\\
0 & \sigma_v^2
\end{pmatrix}
とおくと,
D^{-\frac{1}{2}} \Sigma D^{-\frac{1}{2}}
=\begin{pmatrix}
1 & \theta \\
\theta & 1
\end{pmatrix},D^{-\frac{1}{2}} W D^{-\frac{1}{2}}
=\begin{pmatrix}
\frac{w_{11}}{\sigma_m^2} & \frac{w_{12}}{\sigma_m \sigma_v} \\
\frac{w_{12}}{\sigma_m \sigma_v} & \frac{w_{22}}{\sigma_v^2}
\end{pmatrix}
D^{-\frac{1}{2}} W D^{-\frac{1}{2}} \thicksim W_2(n-1,D^{-\frac{1}{2}} \Sigma D^{-\frac{1}{2}})
よって,
W \thicksim W_2(n-1,D^{-\frac{1}{2}} \Sigma D^{-\frac{1}{2}})
とみなすことができる。(新しい文字で置き換えたと捉えたほうがわかりやすい)
自由度n-1,共分散行列 \Sigma のウィシャート分布の密度関数は,以下のように書ける。
f(w) = \frac{|W|^{\frac{n-4}{2}}}{2^{(n-1)} \Gamma_2(\frac{n-1}{2})|\Sigma|^{\frac{n-1}{2}}} \exp \left \{-\frac{1}{2} \operatorname{tr} (\Sigma^{-1} W) \right\}
ルジャンドルの倍数公式 \hspace{2pt}\Gamma(z)\Gamma(z+\frac{1}{2}) = 2^{1-2z} \sqrt{\pi} \hspace{1pt}\Gamma(2z)を用いて,
\begin{align*}
\Gamma_2 \left( \frac{n-1}{2} \right) &= \sqrt{\pi} \hspace{1pt}\Gamma \left( \frac{n-1}{2} \right)\Gamma \left( \frac{n-2}{2} \right)\\
&= 2^{(3-n)} \pi \Gamma(n-2)
\end{align*}
|W| = w_{11} w_{22}-w_{12}^2 \hspace{2pt},
|\Sigma| = 1- \theta^2 \\
\operatorname{tr} (\Sigma^{-1} W) = \frac{1}{1-\theta^2}(w_{11} + w_{22} - 2\theta w_{12})
以上を用いると密度関数は、
f_{\theta}(w_{11},w_{22},w_{12}) = \frac{(w_{11} w_{22} - w_{12}^2 )^{\frac{n-4}{2}}}{4 \pi \Gamma(n-2) (1- \theta^2)^{\frac{n-1}{2}}}\exp \left \{-\frac{w_{11} + w_{22} - 2\theta w_{12}}{2(1- \theta^2)} \right\}
\sqrt{w_{11}w_{22}}(ヤコビアン)をかけることに注意して,
f _{\theta}(w_{11},w_{22},\hat{\theta}) =
\frac{(w_{11} w_{22} (1 - \hat{\theta}^2 ))^{\frac{n-4}{2}}}{4 \pi \Gamma(n-2) (1- \theta^2)^{\frac{n-1}{2}}}\exp \left \{-\frac{w_{11} + w_{22} - 2\theta \hat{\theta} \sqrt{w_{11}w_{22}}}{2(1- \theta^2)} \right\}\sqrt{w_{11}w_{22}}
w_{11}とw_{22}を消すために積分する.
f _{\theta} \left(\hat{\theta} \right)=
\frac{ (1 - \hat{\theta}^2 )^{\frac{n-4}{2}}}{4 \pi \Gamma(n-2) (1- \theta^2)^{\frac{n-1}{2}}} \int_0^{\infty}\int_0^{\infty}(w_{11} w_{22})^{\frac{n-3}{2}}\exp \left \{-\frac{w_{11} + w_{22} }{2(1- \theta^2)} + \frac{\theta \hat{\theta} \sqrt{w_{11}w_{22}}}{1- \theta^2}\right\}d w_{11}d w_{22}
変数変換 \sqrt{w_{11}w_{22}} = \alpha , \sqrt{\frac{w_{11}}{w_{22}}} = \operatorname{e}^\beta を用いて,
2 \alpha(ヤコビアン)をかけることに注意して,
f _{\theta}\left(\hat{\theta} \right)=
\frac{ (1 - \hat{\theta}^2 )^{\frac{n-4}{2}}}{2 \pi \Gamma(n-2) (1- \theta^2)^{\frac{n-1}{2}}} \int_{- \infty}^{\infty}\int_0^{\infty} \alpha^{n-2}\exp \left \{-\frac{\cosh \beta - \theta \hat{\theta}}{1- \theta^2} \alpha\right\}d\alpha d\beta
ガンマ関数を用いると,
f _{\theta}\left(\hat{\theta} \right)=
\frac{(n-2) (1- \theta^2)^{\frac{n-1}{2}}(1 - \hat{\theta}^2 )^{\frac{n-4}{2}} }{2 \pi } \int_{- \infty}^{\infty} \frac{1}{(\cosh \beta - \theta \hat{\theta})^{n-1}} d\beta
\cosh \beta - \theta \hat{\theta}は偶関数なので,
f_{\theta}\left(\hat{\theta}\right) = \frac{(n-2)(1-\theta^2)^{\frac{n-1}{2}}(1-\hat{\theta}^2)^{\frac{n-4}{2}}}{\pi} \int_ 0^ \infty \frac{d \omega}{(\cosh \omega - \theta \hat{\theta})^{n-1}}
まとめ
最後まで読んでいただきありがとうございます。難しめでした。
ただ、導出を書いているのはこの記事だけでは?と思っているので、役に立てたら幸いです。
役に立ってたらいいねもお願いします。
参考文献
B.エフロン,T.J.ヘイスティ(2020)『大規模計算時代の統計推論: 原理と発展』 藤澤洋徳・井手剛監訳 (共立出版),p.32
Discussion