Zenn
🟠

母平均の仮説検定

2024/01/31に公開

はじめに

母平均の検定、個人的に仮説検定めっちゃ苦手です。というのも、なんか整理しきれてないんですよね。大学院で統計を専門でやっているのに恥ずかしい話ですが、私ですら苦手なので多くの人が苦手意識を持っているのではないでしょうか。なので今回は、苦手な人にも分かりやすいように解説していくので見ていってください。

ちなみに仮説検定は, 帰無仮説 HH と対立仮説 KK として

片側検定

(1) H:θ=θ0, K:θ>θ0;(1) H:θ=θ0, K:θ<θ0;(2) H:θθ0, K:θ>θ0;(2) H:θθ0, K:θ<θ0; \begin{align*} (1) & \ H: \theta = \theta_0, \ K: \theta > \theta_0; & (1') & \ H: \theta = \theta_0, \ K: \theta < \theta_0; \\ (2) & \ H: \theta \leq \theta_0, \ K: \theta > \theta_0; & (2') & \ H: \theta \geq \theta_0, \ K: \theta < \theta_0; \\ \end{align*}

と両側検定

(3) H:θ=θ0, K:θθ0 (3) \ H: \theta = \theta_0, \ K: \theta \neq \theta_0

があります。
(2),(2’)は(1),(1’)と同様の棄却域を考えれば良いです。(3)は(1)と(1’)を合わせた棄却域を考えれば良いです。

ロードマップ

最速で理解したい人はこの図を暗記してください。笑

平均μ\mu ,分散σ2\sigma^2をもつなんらかの分布からデータが得られるとする。

まず、母平均の検定には2つの場合がある。

正規分布かどうか、分散が既知かどうか

ここが大きな違いです。

これらの場合について詳しく見ていきます。

母平均の仮説検定

(1)のパターンを見ていく。

H:μ=μ0, K:μ>μ0 H:\mu=\mu_0 , \ K:\mu > \mu_0

の水準α\alphaの問題を考える。平均μ\mu,分散σ2\sigma^2の分布からのnn個のデータをX1,,XnX_1,\dots ,X_nとする。

まず、HHのもとで考える。つまり母平均μ\muμ0\mu_0であると仮定する。

標本平均Xˉ=n1i=1nXi\bar X = n^{-1}\sum_{i=1}^nX_i は不偏性を持つのでE(Xˉ)=μE(\bar X)=\muであることに注意。

このときXˉ\bar Xの期待値と分散は, E(Xˉ)=μ0E(\bar X) =\mu_0 ,

分散が既知の場合は Var(Xˉ)=σ2/nVar(\bar X )=\sigma^2/n

分散が未知の場合は不偏推定量S02=i=1n(XiXˉ)2/(n1)S_0^2 = \sum_{i=1}^n(X_i - \bar X)^2/(n-1)σ2\sigma^2の代わりに用いてVar(Xˉ)=S02/nVar(\bar X )=S_{0}^2/n

統計量Uを次のように定義する。

U=XˉE(Xˉ)Var(Xˉ) U = \frac{\bar X - E(\bar X)}{\sqrt{Var(\bar X)}}

Uが何の分布に従うかを考える。

正規分布のとき

1. 分散 σ2\sigma^2 が既知の場合

U=n(Xˉμ0)σ \begin{equation} U = \frac{\sqrt{n}(\bar X - \mu_0)}{\sigma} \end{equation}

UU はデータが正規分布から取られているためそのまま標準正規分布に従う。

対立仮説 K:μ>μ0K:\mu > \mu_0であるため有意水準α\alpha とすると棄却域を(a,)(a,\infty)としたとき

α=P{Xˉ>a}=P{U>n(aμ0)/σ} \begin{equation} \alpha = P\{\bar X > a \} = P\{U > \sqrt{n}(a - \mu_0)/\sigma\} \end{equation}

を考えれば良い。α\alpha はユーザーが決める。例えば、0.05や0.01がよく用いられる。これよりaa がもとまる。

(2)式の式変形はどうなってるかというと

P{Xˉ>a}=P{(Xˉμ0)/σ>(aμ0)/σ}=P{n(Xˉμ0)/σ>n(aμ0)/σ} \begin{align*} P\{\bar X>a\} = P\{(\bar X - \mu_0)/\sigma > (a - \mu_0)/\sigma\} = P\{\sqrt{n}(\bar X - \mu_0)/\sigma > \sqrt{n}(a - \mu_0)/\sigma\} \end{align*}

N(0,1)N(0,1)の上側100α100\alpha%点 : uαu_\alpha,

P{Z>uα}=α \begin{equation} P\{Z > u_\alpha\}=\alpha \end{equation} (2)
uα=n(aμ0)/σ u_\alpha = \sqrt{n}(a - \mu_0)/\sigma

を計算すれば良いことがわかる。結果は、

a=μ0+uα(σ/n) a= \mu_0 + u_\alpha(\sigma / \sqrt n)

したがって

xˉ>μ0+uα(σ/n)Hを棄却xˉμ0+uα(σ/n)Hを受容 \begin{align*} \bar x > \mu_0 + u_\alpha(\sigma/\sqrt n) \Rightarrow H\text{を棄却}\\ \bar x \leq \mu_0 + u_\alpha(\sigma/\sqrt n) \Rightarrow H\text{を受容} \end{align*}

検出力を求める。対立仮説K:μ>μ0K:\mu > \mu_0のもとで棄却域に入る確率を考えれば良い。

γ(μ)=P(Xˉ>μ0+uασn)=P(Xˉμ>μ0μ+uασn)=P(n(Xˉμ)σ>n(μ0μ)σ+uα)=Φ(n(μ0μ)σuα) \begin{align*} \gamma(\mu) &= P\left(\bar X > \mu_0 + u_\alpha \frac{\sigma}{\sqrt n}\right)\\ &= P\left(\bar X - \mu > \mu_0 - \mu + u_\alpha \frac{\sigma}{\sqrt n}\right)\\ &= P\left(\frac{\sqrt{n}(\bar X - \mu)}{\sigma} > \frac{\sqrt{n}( \mu_0 - \mu)}{\sigma} + u_\alpha \right)\\ &=\Phi\left( - \frac{\sqrt{n}( \mu_0 - \mu)}{\sigma} - u_\alpha \right) \end{align*}

ただしΦ\PhiN(0,1)N(0,1)のc.d.f.とする。

2. 分散 σ2\sigma^2 が未知の場合

分散が未知だから不偏推定量S02S_0^2σ2\sigma^2を置き換える。

これらを用いて統計量Uは次のようになる。

U=n(Xˉμ0)S0 \begin{equation} U = \frac{\sqrt n(\bar X - \mu_0)}{S_0} \end{equation}

UUは自由度n1n-1のτ分布に従う。標準正規分布ではなくt分布になることに注意。←ここは暗記して!

対立仮説 K:μ>μ0K:\mu > \mu_0であるため有意水準α\alpha とすると棄却域を(a,)(a,\infty)としたとき

α=P{T>a} \alpha = P\{T >a\}

tn1t_{n-1}分布の上側100α100\alpha%点 : tα(n1)t_{\alpha}(n-1)

データから(4)の値tt^*を計算して

t>tα(n1)Hを棄却ttα(n1)Hを受容 \begin{align*} t^* > t_\alpha(n-1) \Rightarrow H\text{を棄却}\\ t^* \leq t_\alpha(n-1) \Rightarrow H\text{を受容} \end{align*}

次に検出力を求める。対立仮説K:μ>μ0K:\mu > \mu_0のもとで棄却域に入る確率を考えれば良い。

γ(μ)=P(U>tα(n1))=P(n(Xˉμ0)S0>tα(n1))=P(n(Xˉμ)S0>tα(n1)+n(μ0μ)S0)=Gn1(tα(n1)n(μ0μ)S0) \begin{align*} \gamma(\mu) &= P(U > t_\alpha(n-1))\\ &= P\left(\frac{\sqrt{n} (\bar X - \mu_0)}{S_0} > t_\alpha(n-1) \right)\\ &= P\left(\frac{\sqrt{n} (\bar X - \mu)}{S_0} > t_\alpha(n-1) + \frac{\sqrt{n} (\mu_0 - \mu)}{S_0} \right)\\ &= G_{n-1} \left( - t_\alpha(n-1) - \frac{\sqrt{n} (\mu_0 - \mu)}{S_0} \right) \end{align*}

ただし、tn1t_{n-1}分布のc.d.f.をGn1G_{n-1}とする。

正規分布以外のとき

データの取られ方が正規分布以外の時のUは(1)または(4)と同様に定義できる。なぜなら中心極限定理よりnが大きい時、漸近的にUは標準正規分布に従う。

分散が未知でも正規分布以外の時はt分布ではなく標準正規分布で近似することに注意。

Uを用いて正規分布の分散既知の場合と同様に棄却域を求めれば良い。

まとめ

何だかややこしいですが、分布が正規分布で分散未知だったらt分布。それ以外は標準正規分布と覚えておきましょう。

t分布も漸近的には正規分布で近似できるので、大雑把にやってしまえば全て標準正規分布で近似して棄却域を求めてるみたいなもんですね。実際大雑把にやるのはダメなのでt分布を用いるのですが、、、

参考文献

  • 赤平昌文 「統計解析入門」

Discussion

ログインするとコメントできます