🟠

標本相関係数の密度関数の導出

2023/10/03に公開

はじめに

標本相関係数の密度関数はかなり複雑な形をしているので、どう導き出されるか見ていってください。

そもそも相関係数についてよくわからない方はこちらの記事をチェック
https://zenn.dev/totopironote/articles/8893534302ba55

問題

今回の問題は、エフロンとヘイスティ(2020)「大規模計算時代の統計推論」の32ページ(3.11)式です。
確率変数(m,v)の同時分布が2変数正規分布に従うときの標本相関係数の確率密度関数です。
mとvの標本相関係数 \scriptsize{\hat{\theta}} は、以下のように書ける。

\hat{θ} = \sum_{i=1}^{n} (m_i-\bar{m})(v_i-\bar{v}) \biggl/ \left[\sum_{i=1}^{n} (m_i-\bar{m})^2 \sum_{i=1}^{n} (v_i-\bar{v})^2\right]^{1/2} \\

ただし, nはデータ数, \hspace{2pt} \bar{m}=\sum_{i=1}^{n} m_i, \hspace{2pt} \bar{v}=\sum_{i=1}^{n} v_i

このとき, \theta の関数としての \scriptsize{\hat{\theta}} の密度関数は,以下のように書ける。

f_{\theta}\left(\hat{\theta}\right) = \frac{(n-2)(1-\theta^2)^{\frac{n-1}{2}}(1-\hat{\theta}^2)^{\frac{n-4}{2}}}{\pi} \int_ 0^ \infty \frac{d \omega}{(\cosh \omega - \theta \hat{\theta})^{n-1}}

この式の導出をします。

導出

\begin{pmatrix} m\\ v \end{pmatrix} \thicksim N(\mu,\Sigma) \hspace{2pt} , \mu = \begin{pmatrix} \mu_m\\ \mu_v \end{pmatrix} ,\hspace{2pt} \Sigma = \begin{pmatrix} \sigma_m^2 & \theta \sigma_m \sigma_v \\ \theta \sigma_m \sigma_v & \sigma_v^2 \end{pmatrix}

と仮定する。

不偏共分散行列Sは次のように書ける。

(n-1)S = \begin{bmatrix} \sum_{i=1}^{n} (m_i-\bar{m})^2 & \sum_{i=1}^{n} (m_i-\bar{m})(v_i-\bar{v}) \\ \sum_{i=1}^{n} (m_i-\bar{m})(v_i-\bar{v}) & \sum_{i=1}^{n} (v_i-\bar{v})^2 \end{bmatrix}
W = (n-1)S = \begin{pmatrix} w_{11} & w_{12} \\ w_{12} & w_{22} \end{pmatrix}

とおくと,

W \thicksim W_2(n-1, \Sigma)

となる。

\hat{\theta} = \frac{w_{12}}{\sqrt{w_{11}w_{22}}} = \frac{w_{12} \bigl/ \sigma_m \sigma_v}{\sqrt{\frac{w_{11}}{\sigma_m^2} \frac{w_{22}}{\sigma_v^2}}}, D = \begin{pmatrix} \sigma_m^2 & 0\\ 0 & \sigma_v^2 \end{pmatrix}

とおくと,

D^{-\frac{1}{2}} \Sigma D^{-\frac{1}{2}} =\begin{pmatrix} 1 & \theta \\ \theta & 1 \end{pmatrix},D^{-\frac{1}{2}} W D^{-\frac{1}{2}} =\begin{pmatrix} \frac{w_{11}}{\sigma_m^2} & \frac{w_{12}}{\sigma_m \sigma_v} \\ \frac{w_{12}}{\sigma_m \sigma_v} & \frac{w_{22}}{\sigma_v^2} \end{pmatrix}
D^{-\frac{1}{2}} W D^{-\frac{1}{2}} \thicksim W_2(n-1,D^{-\frac{1}{2}} \Sigma D^{-\frac{1}{2}})

よって,

W \thicksim W_2(n-1,D^{-\frac{1}{2}} \Sigma D^{-\frac{1}{2}})

とみなすことができる。(新しい文字で置き換えたと捉えたほうがわかりやすい)

自由度n-1,共分散行列 \Sigma のウィシャート分布の密度関数は,以下のように書ける。

f(w) = \frac{|W|^{\frac{n-4}{2}}}{2^{(n-1)} \Gamma_2(\frac{n-1}{2})|\Sigma|^{\frac{n-1}{2}}} \exp \left \{-\frac{1}{2} \operatorname{tr} (\Sigma^{-1} W) \right\}

ルジャンドルの倍数公式 \hspace{2pt}\Gamma(z)\Gamma(z+\frac{1}{2}) = 2^{1-2z} \sqrt{\pi} \hspace{1pt}\Gamma(2z)を用いて,

\begin{align*} \Gamma_2 \left( \frac{n-1}{2} \right) &= \sqrt{\pi} \hspace{1pt}\Gamma \left( \frac{n-1}{2} \right)\Gamma \left( \frac{n-2}{2} \right)\\ &= 2^{(3-n)} \pi \Gamma(n-2) \end{align*}
|W| = w_{11} w_{22}-w_{12}^2 \hspace{2pt}, |\Sigma| = 1- \theta^2 \\ \operatorname{tr} (\Sigma^{-1} W) = \frac{1}{1-\theta^2}(w_{11} + w_{22} - 2\theta w_{12})

以上を用いると密度関数は、

f_{\theta}(w_{11},w_{22},w_{12}) = \frac{(w_{11} w_{22} - w_{12}^2 )^{\frac{n-4}{2}}}{4 \pi \Gamma(n-2) (1- \theta^2)^{\frac{n-1}{2}}}\exp \left \{-\frac{w_{11} + w_{22} - 2\theta w_{12}}{2(1- \theta^2)} \right\}

\sqrt{w_{11}w_{22}}(ヤコビアン)をかけることに注意して,

f _{\theta}(w_{11},w_{22},\hat{\theta}) = \frac{(w_{11} w_{22} (1 - \hat{\theta}^2 ))^{\frac{n-4}{2}}}{4 \pi \Gamma(n-2) (1- \theta^2)^{\frac{n-1}{2}}}\exp \left \{-\frac{w_{11} + w_{22} - 2\theta \hat{\theta} \sqrt{w_{11}w_{22}}}{2(1- \theta^2)} \right\}\sqrt{w_{11}w_{22}}

w_{11}w_{22}を消すために積分する.

f _{\theta} \left(\hat{\theta} \right)= \frac{ (1 - \hat{\theta}^2 )^{\frac{n-4}{2}}}{4 \pi \Gamma(n-2) (1- \theta^2)^{\frac{n-1}{2}}} \int_0^{\infty}\int_0^{\infty}(w_{11} w_{22})^{\frac{n-3}{2}}\exp \left \{-\frac{w_{11} + w_{22} }{2(1- \theta^2)} + \frac{\theta \hat{\theta} \sqrt{w_{11}w_{22}}}{1- \theta^2}\right\}d w_{11}d w_{22}

変数変換 \sqrt{w_{11}w_{22}} = \alpha , \sqrt{\frac{w_{11}}{w_{22}}} = \operatorname{e}^\beta を用いて,

2 \alpha(ヤコビアン)をかけることに注意して,

f _{\theta}\left(\hat{\theta} \right)= \frac{ (1 - \hat{\theta}^2 )^{\frac{n-4}{2}}}{2 \pi \Gamma(n-2) (1- \theta^2)^{\frac{n-1}{2}}} \int_{- \infty}^{\infty}\int_0^{\infty} \alpha^{n-2}\exp \left \{-\frac{\cosh \beta - \theta \hat{\theta}}{1- \theta^2} \alpha\right\}d\alpha d\beta

ガンマ関数を用いると,

f _{\theta}\left(\hat{\theta} \right)= \frac{(n-2) (1- \theta^2)^{\frac{n-1}{2}}(1 - \hat{\theta}^2 )^{\frac{n-4}{2}} }{2 \pi } \int_{- \infty}^{\infty} \frac{1}{(\cosh \beta - \theta \hat{\theta})^{n-1}} d\beta

\cosh \beta - \theta \hat{\theta}は偶関数なので,

f_{\theta}\left(\hat{\theta}\right) = \frac{(n-2)(1-\theta^2)^{\frac{n-1}{2}}(1-\hat{\theta}^2)^{\frac{n-4}{2}}}{\pi} \int_ 0^ \infty \frac{d \omega}{(\cosh \omega - \theta \hat{\theta})^{n-1}}

まとめ

最後まで読んでいただきありがとうございます。難しめでした。

最後に、どなたかMarkdownで枠を作ったりする方法ご存知でしたら、ご教示いただけると幸いです。Notionでいうコールアウトみたいにして定義などをみやすくしたいです。

参考文献

B.エフロン,T.J.ヘイスティ(2020)『大規模計算時代の統計推論: 原理と発展』 藤澤洋徳・井手剛監訳 (共立出版),p.32

Discussion