これは何か
- Brunner-Munzel検定の理論を説明したもの
- 議論の簡略化のため, 一部問題設定を変更している点に注意
Brunner-Munzel検定の概要
- 対応のない2群の比較を目的とした検定
-
p = P \left( X < Y \right) + \frac{1}{2} P \left( X = Y \right)に着目し, 帰無仮説H_{0}: p = \frac{1}{2}が棄却されるか否かを見るもの
本記事における問題設定
- 以下の2種類の確率変数を考える(合計でN = n_{x} + n_{y}個の確率変数)
-
X_{1}, \cdots, X_{n_{x}}: 分布関数F_{X}に独立に従うn_{x}個の確率変数
-
Y_{1}, \cdots, Y_{n_{y}}: 分布関数F_{Y}に独立に従うn_{y}個の確率変数
- 議論の簡略化のため, 以下を仮定する
-
X, Yは連続確率分布に従う
-
X_{1}, \cdots, X_{n_{x}}, Y_{1}, \cdots, Y_{n_{y}}のうち, 1つ以上のペアで同じ値をとる確率は0とする
-
p = P \left( X < Y \right)に着目し, 帰無仮説H_{0}: p = \frac{1}{2}が棄却されるか否かを考えていく
記号
-
I \left( X < Y \right): X < Yの時1, それ以外で0をとなる関数
-
\hat{F}_{X} \left( x \right) = \frac{1}{n_{x}} \sum_{i=1}^{n_{x}} I \left( X_{i} < x \right): Xの経験分布関数
-
\hat{F}_{Y} \left( y \right) = \frac{1}{n_{y}} \sum_{j=1}^{n_{y}} I \left( Y_{j} < y \right): Yの経験分布関数
-
R_{xi}: X_{1}, \cdots, X_{n_{x}}, Y_{1}, \cdots, Y_{n_{y}}の中でのX_{i}の順位(昇順)
-
Xの順位の平均値を\bar{R_{x}} = \frac{1}{n_{x}} \sum_{i=1}^{n_{x}} R_{xi}とする
-
R_{i}^{(x)}: X_{1}, \cdots, X_{n_{x}}の中でのX_{i}の順位(昇順)
-
R_{yj}: X_{1}, \cdots, X_{n_{x}}, Y_{1}, \cdots, Y_{n_{y}}の中でのY_{j}の順位(昇順)
-
Yの順位の平均値を\bar{R_{y}} = \frac{1}{n_{y}} \sum_{j=1}^{n_{y}} R_{yj}とする
-
R_{j}^{(y)}: Y_{1}, \cdots, Y_{n_{y}}の中でのY_{j}の順位(昇順)
説明の流れ
- (Step 1) p = P \left( X < Y \right)の不偏推定量\hat{p}を構成
- (Step 2) \sqrt{N} \left( \hat{p} - p \right)の漸近分布の導出
- (Step 3) \sqrt{N} \left( \hat{p} - p \right)の漸近分散の推定量\hat{\sigma_{N}}^{2}を構成
- (Step 4) 帰無仮説H_{0}: p = \frac{1}{2}の下で\frac{\sqrt{N} \left( \hat{p} - \frac{1}{2} \right)}{ \hat{\sigma_{N}} }が漸近的に標準正規分布に従うことから, 検定の手続きを構成
理論の説明
(Step 1) pの不偏推定量の構成
まず, p = P \left( X < Y \right)の不偏推定量\hat{p}として真っ先に思いつくのは, X < Yを満たすX_{i}, Y_{j}のペアの割合, すなわち
\hat{p} = \sum_{i=1}^{n_{x}} \sum_{j=1}^{n_{y}} \frac{I \left( X_{i} < Y_{j} \right)}{n_{x} n_{y}}
だと思われる. この推定量\hat{p}は, 経験分布関数\hat{F}_{X}, \hat{F}_{Y}を用いると別の表現をすることもできる:
\begin{aligned}
\hat{p} & = \frac{1}{n_{y}} \sum_{j=1}^{n_{y}} \hat{F}_{X} \left( Y_{j} \right), \\
\hat{p} & = \frac{1}{n_{x}} \sum_{i=1}^{n_{x}} \left\{ 1 - \hat{F}_{Y} \left( X_{i} \right) \right\}.
\end{aligned}
ここでStep 2以降の議論を見据えて, 以下の2つのpの不偏統計量も考えておく:
\begin{aligned}
\hat{p}^{(y)} & = E_{X} \left[ \hat{p} \right] = \frac{1}{n_{y}} \sum_{j=1}^{n_{y}} E_{X} \left[ \hat{F}_{X} \left( Y_{j} \right) \right] = \frac{1}{n_{y}} \sum_{j=1}^{n_{y}} F_{X} \left( Y_{j} \right), \\
\hat{p}^{(x)} & = E_{Y} \left[ \hat{p} \right] = \frac{1}{n_{x}} \sum_{i=1}^{n_{x}} \left\{ 1 - E_{Y} \left[ \hat{F}_{Y} \left( X_{i} \right) \right] \right\} = \frac{1}{n_{x}} \sum_{i=1}^{n_{x}} \left\{ 1 - F_{Y} \left( X_{i} \right) \right\}.
\end{aligned}
ただし, \hat{p}, \hat{p}^{(x)}, \hat{p}^{(y)}の計算に必要な情報が異なる点に注意したい:
-
\hat{p}: X, Yのサンプルが必要
-
\hat{p}^{(x)}: Xのサンプル, 及びYの分布関数F_{Y}が必要
-
\hat{p}^{(y)}: Yのサンプル, 及びXの分布関数F_{X}が必要
\hat{p}の漸近正規性を示す際, ここで導入した2つの推定量\hat{p}^{(x)}, \hat{p}^{(y)}が重要な役割を果たす.
最後に, Step 4で検定の手続きを構成するにあたって便利な推定量\hat{p}の別表現を示しておく(Step 2の漸近分布導出ではあまり関係はない). この表現は順位データに基づく表現となっている:
\hat{p} = \frac{1}{N} \left( \bar{R_{y}} - \bar{R_{x}} \right) + \frac{1}{2}.
順位データを用いた表現の導出
\hat{p}は, 「X_{i} < Y_{j}となるX, Yのペアの個数」をn_{x} n_{y}で割ったものである. そこで, 「X_{i} < Y_{j}となるX, Yのペアの個数」を順位データを用いて表現する.
Y_{j}に着目すると, 全体での順位はR_{yj}, Y内での順位はR_{j}^{(y)}である. これを言い換えると
-
Y_{j}より小さいX, Yの個数: R_{yj} - 1個
-
Y_{j}より小さいYの個数: R_{j}^{(y)} - 1個
となる. したがって, Y_{j}より小さいXの個数は
(R_{yj} - 1) - (R_{j}^{(y)} - 1) = R_{yj} - R_{j}^{(y)}
となる. これのjについての和
\sum_{j=1}^{n_{y}} \left( R_{yj} - R_{j}^{(y)} \right) = \verb|全体でのYの順位和| - \verb|Y内でのYの順位和| = n_{y} \bar{R_{y}} - \frac{n_{y} (n_{y} + 1)}{2}
が「X_{i} < Y_{j}となるX, Yのペアの個数」となり, さらにn_{x} n_{y}で割れば\hat{p}が得られる:
\hat{p} = \frac{1}{n_{x}} \left( \bar{R_{y}} - \frac{n_{y} + 1}{2} \right).
さらに, 「Xの順位和 + Yの順位和 = 全体の順位和」, つまり\frac{n_{x} (n_{x} + 1)}{2} + \frac{n_{y} (n_{y} + 1)}{2} = \frac{N (N + 1)}{2}が成り立つことを考えると
\begin{aligned}
\hat{p} - \frac{1}{2}
&= \frac{1}{n_{x}} \left( \bar{R_{y}} - \frac{n_{y} + 1}{2} \right) - \frac{1}{2} \\
&= \frac{1}{n_{x}} \left( \bar{R_{y}} - \frac{n_{x} + n_{y} + 1}{2} \right) \\
&= \frac{1}{N n_{x}} \left( (n_{x} + n_{y}) \bar{R_{y}} - \frac{N (N + 1)}{2} \right) \\
&= \frac{1}{N n_{x}} \left( n_{x} \bar{R_{y}} - n_{x} \bar{R_{x}} \right) \\
&= \frac{1}{N} \left( \bar{R_{y}} - \bar{R_{x}} \right)
\end{aligned}
となり,
\hat{p} = \frac{1}{N} \left( \bar{R_{y}} - \bar{R_{x}} \right) + \frac{1}{2}
が示された.
(順位データを用いた表現の導出 終わり)
(Step 2) 漸近分布の導出
結論を先に述べておくと, \sqrt{N} \left( \hat{p} - p \right) は漸近的に正規分布に従う. \hat{p}の漸近正規性を示すにあたり, 改めて推定量を眺めてみよう:
\hat{p} = \sum_{i=1}^{n_{x}} \sum_{j=1}^{n_{y}} \frac{I \left( X_{i} < Y_{j} \right)}{n_{x} n_{y}}.
ぱっと見, 標本平均の形をしているから中心極限定理で一発では?と思えるが, そううまくはいかない. なぜなら, I \left( X_{i} < Y_{j} \right)の独立性がなりたたないためである.
独立性が成り立たないことの説明
例えば I \left( X_{1} < Y_{2} \right) = 1, I \left( X_{3} < Y_{2} \right) = 0のケースを考えよう.
この場合, X_{1} < Y_{2} < X_{3}となるが, そうなるとI \left( X_{1} < Y_{4} \right) = 0, I \left( X_{3} < Y_{4} \right) = 1は起こりえない. 仮に起こったとすると, X_{3} < Y_{4} < X_{1}となり, X_{1}, X_{3}の大小関係が逆転してしまい, 矛盾が生じてしまう.
ゆえに, I \left( X_{i} < Y_{j} \right)は互いに影響を及ぼしあうため, 独立ではない.
(独立性が成り立たないことの説明 終わり)
さて, どうするか? ここで活躍するのが, Step 1で導入した推定量\hat{p}^{(x)}, \hat{p}^{(y)}である. 改めて式を眺めてみると, \hat{p}^{(x)}, \hat{p}^{(y)}もともに同一独立分布にしたがう統計量の標本平均の形になっており, 中心極限定理が適用できる形をしている:
\begin{aligned}
\hat{p}^{(y)} & = \frac{1}{n_{y}} \sum_{j=1}^{n_{y}} F_{X} \left( Y_{j} \right), \\
\hat{p}^{(x)} & = \frac{1}{n_{x}} \sum_{i=1}^{n_{x}} \left\{ 1 - F_{Y} \left( X_{i} \right) \right\}.
\end{aligned}
そこで, \hat{p}, \hat{p}^{(x)}, \hat{p}^{(y)}の間にきれいな関係が成り立たないかが気になってくる.
実は\sqrt{N} \left( \hat{p} - p \right) と \sqrt{N} \left( \hat{p}^{(x)} + \hat{p}^{(y)} - 2 p \right)の漸近分布は同じ, ということが示せる.
2つの統計量の漸近分布が同じことの説明
漸近分布が同じことを示すには, 2つの統計量の差が0に確率収束することを示せばよい(参考:Asymptotic equivalence). また, 2次平均収束するなら確率収束するので, ここでは「2つの統計量の差が0に2次平均収束する」こと, すなわち
E_{XY} \left[ \left\{ \sqrt{N} \left( \hat{p} - p \right) - \sqrt{N} \left( \hat{p}^{(x)} + \hat{p}^{(y)} - 2 p \right) \right\}^{2} \right] = N E_{XY} \left[ \left( \hat{p} - \hat{p}^{(x)} - \hat{p}^{(y)} + p \right)^{2} \right] \rightarrow 0
を示していく.
まず, 差の2乗平均は
\begin{aligned}
& N E_{XY} \left[ \left( \hat{p} - \hat{p}^{(x)} - \hat{p}^{(y)} + p \right)^{2} \right] \\
=& N E_{XY} \left[ \left\{ \left( \hat{p} - \hat{p}^{(x)} \right) - \left( \hat{p}^{(y)} - p \right) \right\} \left\{ \left( \hat{p} - \hat{p}^{(y)} \right) - \left( \hat{p}^{(x)} - p \right) \right\} \right] \\
=& N E_{XY} \left[ \left( \hat{p} - \hat{p}^{(x)} \right) \left( \hat{p} - \hat{p}^{(y)} \right) \right] + N E_{XY} \left[ \left( \hat{p}^{(x)} - p \right) \left( \hat{p}^{(y)} - p \right) \right] \\
& - N E_{XY} \left[ \left( \hat{p} - \hat{p}^{(x)} \right) \left( \hat{p}^{(x)} - p \right) \right] - N E_{XY} \left[ \left( \hat{p} - \hat{p}^{(y)} \right) \left( \hat{p}^{(y)} - p \right) \right] \\
\end{aligned}
のように展開できる. 各項を評価していく.
第2項は, E_{X} \left[ \hat{p}^{(x)} \right] = E_{Y} \left[ \hat{p}^{(y)} \right] = pを踏まえると0となる:
\begin{aligned}
N E_{XY} \left[ \left( \hat{p}^{(x)} - p \right) \left( \hat{p}^{(y)} - p \right) \right]
&= N E_{X} \left[ \hat{p}^{(x)} - p \right] E_{Y} \left[ \hat{p}^{(y)} - p \right] \\
&= N \times 0 \times 0 = 0.
\end{aligned}
第3項は, E_{Y} \left[ \hat{p} \right] = \hat{p}^{(x)}を踏まえると0となる:
\begin{aligned}
N E_{XY} \left[ \left( \hat{p} - \hat{p}^{(x)} \right) \left( \hat{p}^{(x)} - p \right) \right]
&= N E_{X} \left[ E_{Y} \left[ \hat{p} - \hat{p}^{(x)} \right] \left( \hat{p}^{(x)} - p \right) \right] \\
&= N E_{X} \left[ 0 \times \left( \hat{p}^{(x)} - p \right) \right] = 0.
\end{aligned}
第4項は, E_{X} \left[ \hat{p} \right] = \hat{p}^{(y)}を踏まえると0となる(考え方は第3項と同様):
\begin{aligned}
N E_{XY} \left[ \left( \hat{p} - \hat{p}^{(y)} \right) \left( \hat{p}^{(y)} - p \right) \right]
&= N E_{Y} \left[ E_{X} \left[ \hat{p} - \hat{p}^{(y)} \right] \left( \hat{p}^{(y)} - p \right) \right] \\
&= N E_{Y} \left[ 0 \times \left( \hat{p}^{(y)} - p \right) \right] = 0.
\end{aligned}
第1項については, 途中の細かい計算は省くが
\begin{aligned}
& N E_{XY} \left[ \left( \hat{p} - \hat{p}^{(x)} \right) \left( \hat{p} - \hat{p}^{(y)} \right) \right] \\
=& N E_{XY} \left[ \hat{p}^{2} \right] - N E_{XY} \left[ \hat{p} \left( \hat{p}^{(x)} + \hat{p}^{(y)} \right) \right] + N E_{XY} \left[ \hat{p}^{(x)} \hat{p}^{(y)} \right] \\
=& N E_{XY} \left[ \left( \frac{\sum_{i=1}^{n_{x}} \sum_{j=1}^{n_{y}} I \left( X_{i} < Y_{j} \right)}{n_{x} n_{y}} \right)^{2} \right] \\
& - N E_{XY} \left[ \left( \frac{\sum_{i=1}^{n_{x}} \sum_{j=1}^{n_{y}} I \left( X_{i} < Y_{j} \right)}{n_{x} n_{y}} \right) \left( \frac{1}{n_{x}} \sum_{i=1}^{n_{x}} \left\{ 1 - F_{Y} \left( X_{i} \right) \right\} + \frac{1}{n_{y}} \sum_{j=1}^{n_{y}} F_{X} \left( Y_{j} \right) \right) \right] \\
& + N E_{XY} \left[ \left( \frac{1}{n_{x}} \sum_{i=1}^{n_{x}} \left\{ 1 - F_{Y} \left( X_{i} \right) \right\} \right) \left( \frac{1}{n_{y}} \sum_{j=1}^{n_{y}} F_{X} \left( Y_{j} \right) \right) \right] \\
=& \cdots \\
=& \frac{N}{n_{x} n_{y}} \left( p + p^{2} - E_{Y}\left[ F_{X} (Y)^{2} \right] - E_{X}\left[ \left( 1 - F_{Y} (X) \right)^{2} \right] \right) \\
=& \frac{N}{n_{x} n_{y}} \left( p - p^{2} - V_{Y}\left[ F_{X} (Y) \right] - V_{X} \left[ F_{Y} (X) \right] \right)
\end{aligned}
となる.
故に, n_{x} \rightarrow 0, n_{y} \rightarrow 0の極限を考えると
\begin{aligned}
& N E_{XY} \left[ \left( \hat{p} - \hat{p}^{(x)} - \hat{p}^{(y)} + p \right)^{2} \right] \\
=& \frac{N}{n_{x} n_{y}} \left( p - p^{2} - V_{Y}\left[ F_{X} (Y) \right] - V_{X} \left[ F_{Y} (X) \right] \right) \\
=& \frac{n_{x} + n_{y}}{n_{x} n_{y}} \left( p - p^{2} - V_{Y}\left[ F_{X} (Y) \right] - V_{X} \left[ F_{Y} (X) \right] \right) \\
\rightarrow & 0
\end{aligned}
となり, 2つの統計量の差が0に2次平均収束する.
以上より, \sqrt{N} \left( \hat{p} - p \right) と \sqrt{N} \left( \hat{p}^{(x)} + \hat{p}^{(y)} - 2 p \right)の漸近分布は同じものとなる.
(2つの統計量の漸近分布が同じことの説明 終わり)
そのため, 中心極限定理を適用しやすい\sqrt{N} \left( \hat{p}^{(x)} + \hat{p}^{(y)} - 2 p \right)の方で漸近分布を求めれば, それはそのまま\sqrt{N} \left( \hat{p} - p \right)の漸近分布と同じになる.
そこで, \sqrt{N} \left( \hat{p}^{(x)} + \hat{p}^{(y)} - 2 p \right)の漸近分布を求める. 中心極限定理から, 漸近的に平均0の正規分布に従うことはわかる. あとは分散を求めればよい. そこで\hat{p}^{(x)}, \hat{p}^{(y)}の分散を考えると
\begin{aligned}
V_{Y} \left[ \hat{p}^{(y)} \right] &= V_{Y} \left[ \frac{1}{n_{y}} \sum_{j=1}^{n_{y}} F_{X} \left( Y_{j} \right) \right]
= \frac{1}{n_{y}^{2}} \sum_{j=1}^{n_{y}} V_{Y} \left[ F_{X} \left( Y_{j} \right) \right]
= \frac{1}{n_{y}} V_{Y} \left[ F_{X} \left( Y \right) \right], \\
V_{X} \left[ \hat{p}^{(x)} \right] &= V_{X} \left[ \frac{1}{n_{x}} \sum_{i=1}^{n_{x}} \left\{ 1 - F_{Y} \left( X_{i} \right) \right\} \right]
= \frac{1}{n_{x}^{2}} \sum_{i=1}^{n_{x}} V_{X} \left[ F_{Y} \left( X_{i} \right) \right]
= \frac{1}{n_{x}} V_{X} \left[ F_{Y} \left( X \right) \right]
\end{aligned}
となるため, 求める分散は
\begin{aligned}
V_{XY} \left[ \sqrt{N} \left( \hat{p}^{(x)} + \hat{p}^{(y)} - 2 p \right) \right]
&= N V_{XY} \left[ \hat{p}^{(x)} + \hat{p}^{(y)} \right] \\
&= N \left\{ \frac{1}{n_{x}} V_{X} \left[ F_{Y} \left( X \right) \right] + \frac{1}{n_{y}} V_{Y} \left[ F_{X} \left( Y \right) \right] \right\}
\end{aligned}
となる. ゆえに Nが十分大きい時,
\sqrt{N} \left( \hat{p}^{(x)} + \hat{p}^{(y)} - 2 p \right) \sim \verb|Normal| \left( 0, N \left\{ \frac{1}{n_{x}} V_{X} \left[ F_{Y} \left( X \right) \right] + \frac{1}{n_{y}} V_{Y} \left[ F_{X} \left( Y \right) \right] \right\} \right)
となる.
以上のことから Nが十分大きい時,
\sqrt{N} \left( \hat{p} - p \right) \sim \verb|Normal| \left( 0, N \left\{ \frac{1}{n_{x}} V_{X} \left[ F_{Y} \left( X \right) \right] + \frac{1}{n_{y}} V_{Y} \left[ F_{X} \left( Y \right) \right] \right\} \right)
となる.
(Step 3) 漸近分散の推定量の構成
Step 2で求めた分散
\sigma_{N}^{2} = N \left\{ \frac{1}{n_{x}} V_{X} \left[ F_{Y} \left( X \right) \right] + \frac{1}{n_{y}} V_{Y} \left[ F_{X} \left( Y \right) \right] \right\}
は手元のサンプルから構成できない量であるため, この分散の推定量\hat{\sigma_{N}}^{2}を構成して代わりにする.
V_{X} \left[ F_{Y} \left( X \right) \right], V_{Y} \left[ F_{X} \left( Y \right) \right]は「分布関数の分散」となっているため, 「経験分布関数の標本分散」で推定するのが自然と思われる.
-
V_{X} \left[ F_{Y} \left( X \right) \right]の推定量:
\hat{\sigma_{X}}^{2} = \frac{1}{n_{x} - 1} \sum_{i=1}^{n_{x}} \left\{ \hat{F}_{Y} \left( X_{i} \right) - \frac{1}{n_{x}} \sum_{i'=1}^{n_{x}} \hat{F}_{Y} \left( X_{i'} \right) \right\}^{2}.
-
V_{Y} \left[ F_{X} \left( Y \right) \right]の推定量:
\hat{\sigma_{Y}}^{2} = \frac{1}{n_{y} - 1} \sum_{j=1}^{n_{y}} \left\{ \hat{F}_{X} \left( Y_{j} \right) - \frac{1}{n_{y}} \sum_{j'=1}^{n_{y}} \hat{F}_{X} \left( Y_{j'} \right) \right\}^{2}.
ここで, これらの推定量は順位データを用いた表現をすることができる.
-
V_{X} \left[ F_{Y} \left( X \right) \right]の推定量:
\hat{\sigma_{X}}^{2} = \frac{1}{n_{y}^{2} (n_{x} - 1)} \sum_{i=1}^{n_{x}} \left\{ R_{xi} - R_{i}^{(x)} - \bar{R_{x}} + \frac{n_{x} + 1}{2} \right\}^{2}
-
V_{Y} \left[ F_{X} \left( Y \right) \right]の推定量:
\hat{\sigma_{Y}}^{2} = \frac{1}{n_{x}^{2} (n_{y} - 1)} \sum_{j=1}^{n_{y}} \left\{ R_{yj} - R_{j}^{(y)} - \bar{R_{y}} + \frac{n_{y} + 1}{2} \right\}^{2}
順位データを用いた表現の導出
ここではV_{Y} \left[ F_{X} \left( Y \right) \right]の推定量
\frac{1}{n_{y} - 1} \sum_{j=1}^{n_{y}} \left\{ \hat{F}_{X} \left( Y_{j} \right) - \frac{1}{n_{y}} \sum_{j'=1}^{n_{y}} \hat{F}_{X} \left( Y_{j'} \right) \right\}^{2}
の方を取り上げる. もう一方の推定量も同様の考え方で導出可能.
まず, n_{x} \hat{F}_{X} \left( Y_{j} \right)は「Y_{j}より小さいXの個数」なので, この個数を順位データで表現することを考える. Step 1の最後の順位データを使った表現の導出と同様に考えると, 「Y_{j}より小さいXの個数」はR_{yj} - R_{j}^{(y)}となる. よって
\hat{F}_{X} \left( Y_{j} \right) = \frac{R_{yj} - R_{j}^{(y)}}{n_{x}}
となり, この標本平均は
\begin{aligned}
\frac{1}{n_{y}} \sum_{j'=1}^{n_{y}} \hat{F}_{X} \left( Y_{j'} \right)
&= \frac{1}{n_{x} n_{y}} \left( n_{y} \bar{R_{y}} - \frac{n_{y} (n_{y} + 1)}{2} \right) \\
&= \frac{1}{n_{x}} \left( \bar{R_{y}} - \frac{n_{y} + 1}{2} \right)
\end{aligned}
となる.
以上の結果を元の式に代入すれば
\frac{1}{n_{x}^{2} (n_{y} - 1)} \sum_{j=1}^{n_{y}} \left\{ R_{yj} - R_{j}^{(y)} - \bar{R_{y}} + \frac{n_{y} + 1}{2} \right\}^{2}
が得られる.
(順位データを用いた表現の導出 終わり)
ゆえに分散の推定量は
\begin{aligned}
\hat{\sigma_{N}}^{2} &= N \left\{ \frac{\hat{\sigma_{X}}^{2}}{n_{x}} + \frac{\hat{\sigma_{Y}}^{2}}{n_{y}} \right\}, \\
\hat{\sigma_{X}}^{2} &= \frac{1}{n_{y}^{2} (n_{x} - 1)} \sum_{i=1}^{n_{x}} \left\{ R_{xi} - R_{i}^{(x)} - \bar{R_{x}} + \frac{n_{x} + 1}{2} \right\}^{2}, \\
\hat{\sigma_{Y}}^{2} &= \frac{1}{n_{x}^{2} (n_{y} - 1)} \sum_{j=1}^{n_{y}} \left\{ R_{yj} - R_{j}^{(y)} - \bar{R_{y}} + \frac{n_{y} + 1}{2} \right\}^{2}
\end{aligned}
となる.
(Step 4) 検定手続きの構成
Step 2より, Nが十分大きい時,
\sqrt{N} \left( \hat{p} - p \right) \sim \verb|Normal| \left( 0, N \left\{ \frac{1}{n_{x}} V_{X} \left[ F_{Y} \left( X \right) \right] + \frac{1}{n_{y}} V_{Y} \left[ F_{X} \left( Y \right) \right] \right\} \right)
が成り立ち, Step 3よりこの分散は
\begin{aligned}
\hat{\sigma_{N}}^{2} &= N \left\{ \frac{\hat{\sigma_{X}}^{2}}{n_{x}} + \frac{\hat{\sigma_{Y}}^{2}}{n_{y}} \right\}, \\
\hat{\sigma_{X}}^{2} &= \frac{1}{n_{y}^{2} (n_{x} - 1)} \sum_{i=1}^{n_{x}} \left\{ R_{xi} - R_{i}^{(x)} - \bar{R_{x}} + \frac{n_{x} + 1}{2} \right\}^{2}, \\
\hat{\sigma_{Y}}^{2} &= \frac{1}{n_{x}^{2} (n_{y} - 1)} \sum_{j=1}^{n_{y}} \left\{ R_{yj} - R_{j}^{(y)} - \bar{R_{y}} + \frac{n_{y} + 1}{2} \right\}^{2}
\end{aligned}
で推定できる.
故に, Nが十分大きい時,
\frac{\sqrt{N} \left( \hat{p} - p \right)}{\hat{\sigma_{N}}} \sim \verb|Normal| \left( 0, 1 \right)
となることがわかる.
ここまでは特に帰無仮説H_{0}: p = \frac{1}{2}は仮定していなかった. そのため, 上記の関係式を用いれば, p = \frac{1}{2}以外の点でも帰無仮説に設定は可能.
ここで, H_{0}: p = \frac{1}{2}を仮定する. この仮定の下では, Step 1の最後に導出した\hat{p}の順位データ表現\frac{1}{N} \left( \bar{R_{y}} - \bar{R_{x}} \right) + \frac{1}{2}が有用である. この表現を用いると,
\frac{\bar{R_{y}} - \bar{R_{x}}}{\sqrt{N} \hat{\sigma_{N}}} \sim \verb|Normal| \left( 0, 1 \right)
となることが言える.
両側検定を想定するなら, 左辺の統計量\frac{\bar{R_{y}} - \bar{R_{x}}}{\sqrt{N} \hat{\sigma_{N}}}を標準正規分布の上側2.5%及び下側2.5%点と比較し, 棄却するか否かを決めることになる.
参考資料
- Brunner, E.; Munzel, U. (2000). "The nonparametric Behrens-Fisher problem: Asymptotic theory and a small-sample approximation". Biometrical Journal. 42 (1): 17–25.
Discussion