📊
【統計検定準1級】母平均の区間推定

2024/08/06に公開
 はじめにこの記事では、統計検定準1級取得に向けて学習したことをまとめていきます。

工学系の数学ではなく数理あるあるの、論述ゴリゴリな解答になっていると思いますのであらかじめご了承ください。

注意：さらに計算過程は数学文化の『省略の美』を無視してエレファントに書いています。
【リンク紹介】

・統計検定準1級のまとめ記事一覧

・これまで書いたシリーズ記事一覧

 学習書籍についてこの記事では「統計学実践ワークブック」を中心に、学んだことをまとめていきます。記事を読んで本格的に勉強してみたいなと思った方は、是非ご購入を検討なさってください。



 参考書籍について統計実践ワークブックは、大量の知識項目と問題が収められている反面、計算過程や知識背景が大きく省略されているため、知識体系をきちんと学ぶ参考書として東京大学から出版されている名著「統計学入門」を使っています。

※ワークブックとしては素晴らしい質だと思いますが、どうしてもその内容量とページ数の都合上、問題のない範囲で削除されているということです。人によっては1冊で問題ない方もおられると思いますが、私には無理でした。



 区間推定データを用いて未知母数\thetaの値の存在範囲を区間として推定する方法を区間推定(interval estimation)という。

 母平均の区間推定X_1, X_2, \cdots, X_nを、母集団からの無作為標本とする。

今、X_1, X_2, \cdots, X_nは互いに独立で、それぞれ同一の（母平均\mu、母分散\sigma^2の）正規分布N(\mu, \sigma^2)に従うとする。
このとき、母平均\muの区間推定を行う。

 [1] 母分散が既知のとき（※母分散が既知であるため、母分散の推定の必要がないのでそのまま\sigma^2を用いていく）

\overline{X} = \cfrac{X_1 + X_2 + \cdots + X_n}{n}
とおくと、正規分布の再生性より\overline{X}は正規分布N(\mu, \cfrac{\sigma^2}{n})に従う。ここで、標準化を行う。つまり

Z = \cfrac{\overline{X} - \mu}{\frac{\sigma}{\sqrt{n}}}
\hspace{5mm} \cdots ①
とおけば、Zは標準正規分布N(0, 1)に従う。さて、標準正規分布表から次の式が成り立つ。

\begin{alignat*}{2}
Q(1.96)             &= 0.025 \\
1 - \Phi (1.96)     &= 0.025 \\
1 - P(Z \leqq 1.96) &= 0.025 \\
P(Z \leqq 1.96)     &= 1 - 0.025 \\
P(Z \leqq 1.96)     &= 0.975
\end{alignat*}
ただし、\Phi (z)は累積分布関数であり、Q(z)は以下のように定める。

\begin{alignat*}{2}
Q(z) &= 1 - \Phi (z) \\
     &= \int_{z}^{\infty} \varphi (z) dz
\end{alignat*}
また、標準正規分布の対称性から

P(- 1.96 \leqq Z) = 0.025
であることから、次の式が成り立つ。

P(- 1.96 \leqq Z \leqq 1.96) = 0.95
ここで、①より

\begin{alignat*}{2}
P \left(
      - 1.96 \leqq \cfrac{\overline{X} - \mu}{\frac{\sigma}{\sqrt{n}}} \leqq 1.96
  \right) &= 0.95 \hspace{30mm} \\
P \left(
      - 1.96 \leqq \cfrac{\sqrt{n} (\overline{X} - \mu)}{\sigma} \leqq 1.96
  \right) &= 0.95 \\
P \left(
      - 1.96 \cfrac{\sigma}{\sqrt{n}} \leqq 
      \overline{X} - \mu \leqq 
      1.96 \cfrac{\sigma}{\sqrt{n}}
  \right) &= 0.95 \\
P \left(
      \overline{X} - 1.96 \cfrac{\sigma}{\sqrt{n}} \leqq 
      \mu \leqq 
      \overline{X} + 1.96 \cfrac{\sigma}{\sqrt{n}}
  \right) &= 0.95 \hspace{5mm} \cdots ② \\
\end{alignat*}
となる。以上より、母平均\muの存在範囲は

\left[
\overline{X} - 1.96 \cfrac{\sigma}{\sqrt{n}}, \ 
\overline{X} + 1.96 \cfrac{\sigma}{\sqrt{n}}
\right]
となる。
![閉区間]
この母平均\muの存在範囲（後で定義する信頼区間のこと）を

\left[
\overline{X} - 1.96 \cfrac{\sigma}{\sqrt{n}}, \ 
\overline{X} + 1.96 \cfrac{\sigma}{\sqrt{n}}
\right]
と定義しましたが、これは閉区間とよばれるもので、\muの値の範囲が

\overline{X} - 1.96 \cfrac{\sigma}{\sqrt{n}} \leqq 
\mu \leqq 
\overline{X} + 1.96 \cfrac{\sigma}{\sqrt{n}}
であることを意味します。高校数学では数学Ⅲにて登場します。

 信頼区間・信頼係数の定義②において、

母平均\muの存在範囲

\left[
\overline{X} - 1.96 \cfrac{\sigma}{\sqrt{n}}, \ 
\overline{X} + 1.96 \cfrac{\sigma}{\sqrt{n}}
\right]
を、信頼区間(confidence interval)という。

特に、\overline{X} - 1.96 \cfrac{\sigma}{\sqrt{n}}, \overline{X} + 1.96 \cfrac{\sigma}{\sqrt{n}}は信頼限界という。
また、0.95を信頼係数(confidence coefficient)もしくは信頼率といい、改めて②の式は、

「母平均 \mu の信頼係数0.95の信頼区間は \overline{X} - 1.96 \cfrac{\sigma}{\sqrt{n}} \leqq \mu \leqq \overline{X} + 1.96 \cfrac{\sigma}{\sqrt{n}} である」
ことを表している。

 [2] 母分散が未知のとき母分散のがわからないので、母分散の推定値として不偏標本分散U^2を用いる。つまり

U^2 = \cfrac{1}{n - 1} \sum_{i = 1}^{n} (X_i - \overline{X})^2
を、\sigma^2と置き換えることとする。
!標本分散でも置き換えられます

参考書によっては標本分散S^2を推定値として用いている記述もあります。（ただし、nは十分に大きい場合に限られますが）

このように、母分散\sigma^2に対して標本分散S^2、不偏標本分散U^2を置き換えられるのは、これらの統計量が一致性を持つためであると思います。

（※思いますという不確定な主張で申し訳ありません。明確に「そうだ！」という記述は見つけてないのですが、意味を考えるとこの一致性が置き換えに関わっているというふうに判断しました。勉強していく中でより確信が持てたら断言します。）
つまり、X_1, X_2, \cdots, X_nは正規分布N(\mu, U^2)に従うとする。ここで、次の統計量

\cfrac{ \ \ \overline{X} - \mu \ \ }{\cfrac{ \ \ U \ \ }{\sqrt{n}}}
は、標準正規分布N(0, 1)ではなく自由度n - 1のt分布に従う。実際に

\begin{alignat*}{2}
\cfrac{ \ \ \overline{X} - \mu \ \ }{\cfrac{ \ \ U \ \ }{\sqrt{n}}}
&= \cfrac{(\overline{X} - \mu) \cdot \cfrac{1}{\sqrt{\frac{\sigma^2}{n}}}}
         {\cfrac{U}{\sqrt{n}} \cdot \cfrac{1}{\sqrt{\frac{\sigma^2}{n}}}} \\
&= \cfrac{\cfrac{ \ \ \overline{X} - \mu \ \ }{\sqrt{\frac{ \ \ \sigma^2 \ \ }{n}}}}
         {\sqrt{ \ \ \cfrac{\frac{ \ \ U^2 \ \ }{n} \ \ }
                           {\frac{ \ \ \sigma^2 \ \ }{n}}
         }} \\
&= \cfrac{\cfrac{ \ \ \overline{X} - \mu \ \ }{\sqrt{\frac{ \ \ \sigma^2 \ \ }{n}}}}
         {\sqrt{ \ \ \cfrac{\ \ U^2 \ \ }{\ \ \sigma^2 \ \ }}} \\
&= \cfrac{\cfrac{ \ \ \overline{X} - \mu \ \ }{\sqrt{\frac{ \ \ \sigma^2 \ \ }{n}}}}
         {\sqrt{ 1 \cdot \cfrac{\ \ U^2 \ \ }{\ \ \sigma^2 \ \ }}} \\
&= \cfrac{\cfrac{ \ \ \overline{X} - \mu \ \ }{\sqrt{\frac{ \ \ \sigma^2 \ \ }{n}}}}
         {\sqrt{ \cfrac{n - 1}{n - 1} \cdot \cfrac{\ \ U^2 \ \ }{\ \ \sigma^2 \ \ }}} \\
&= \cfrac{\cfrac{ \ \ \overline{X} - \mu \ \ }{\sqrt{\frac{ \ \ \sigma^2 \ \ }{n}}}}
         {\sqrt{ \cfrac{1}{n - 1} \cdot
         \left(
         (n - 1) \cdot \cfrac{\ \ U^2 \ \ }{\ \ \sigma^2 \ \ }
         \right)
         }} \\
&= \cfrac{\cfrac{ \ \ \overline{X} - \mu \ \ }{\sqrt{\frac{ \ \ \sigma^2 \ \ }{n}}}}
         {\sqrt{ \cfrac{\frac{ \ \ (n - 1) U^2 \ \ }{\sigma^2}}{n - 1} }} \\
\end{alignat*}
とすると、分子の

\cfrac{ \ \ \overline{X} - \mu \ \ }{\sqrt{\frac{ \ \ \sigma^2 \ \ }{n}}}
は、N(0, 1)に従い、分母の

\cfrac{\ \ (n - 1) U^2 \ \ }{\sigma^2}
は、自由度n - 1のカイ2乗分布\chi^2 (n - 1)に従う。※詳細は次のコラムにて
!
 カイ2乗分布に従う定理
次の引用をご確認ください。
定理4.5

母集団が正規分布N(\mu, \sigma^2)に従うとき、これから得られた無作為標本(X_1, X_2, \cdots, X_n)の標本平均を\overline{X}とすると

y = \cfrac{1}{\sigma^2} \sum_{i = 1}^{n} (X_i - \overline{X})^2
は自由度n - 1のカイ2乗分布に従う。この場合

Y = \cfrac{n}{\sigma^2} S^2,
\hspace{5mm}
S^2 = \cfrac{1}{n} \sum_{i = 1}^{n} (X_i - \overline{X})^2
ともかけることに注意せよ。
(「小寺 平治.新統計入門.裳華房.1996」より)
このS^2は標本分散ですが、つまりyの式を不偏分散U^2を用いて表せばよいわけです。つまり以下のように表すことができます。

\begin{alignat*}{2}
y &= \cfrac{1}{\sigma^2} \sum_{i = 1}^{n} (X_i - \overline{X})^2 \\
  &= \cfrac{n - 1}{\sigma^2} \cdot
     \cfrac{1}{n - 1}
     \sum_{i = 1}^{n} (X_i - \overline{X})^2 \\
  &= \cfrac{n - 1}{\sigma^2} \cdot U^2 \\
  &= \cfrac{(n - 1) U^2}{\sigma^2} \\
\end{alignat*}
さて、改めて先ほどの統計量を

T = \cfrac{ \ \ \overline{X} - \mu \ \ }{\cfrac{ \ \ U \ \ }{\sqrt{n}}}
とすると、t分布表から次の式が成り立つ。

P\left( - t_{0.025} (n - 1) \leqq T \leqq t_{0.025} (n - 1) \right) = 0.95
ただし、自由度\nuのt分布の上側確率\alphaに対するtの値をt_{ \frac{\alpha}{2} } (\nu)とする。

すると、

\begin{alignat*}{2}
P\left( - t_{0.025} (n - 1) \leqq T \leqq t_{0.025} (n - 1) \right) &= 0.95 \\
P\left( - t_{0.025} (n - 1) \leqq 
 \cfrac{ \ \ \overline{X} - \mu \ \ }{\cfrac{ \ \ U \ \ }{\sqrt{n}}} 
 \leqq t_{0.025} (n - 1) \right) &= 0.95 \\
P \left(
  \overline{X} - t_{0.025} (n - 1) \cdot \cfrac{ \ \ U \ \ }{\sqrt{n}} \leqq 
  \mu \leqq
  \overline{X} + t_{0.025} (n - 1) \cdot \cfrac{ \ \ U \ \ }{\sqrt{n}} \right) &= 0.95 \hspace{20mm} \\
\end{alignat*}
となる。以上より、母平均\muの信頼係数0.95の信頼区間は

\left[
\overline{X} - t_{0.025} (n - 1) \cdot \cfrac{ \ \ U \ \ }{\sqrt{n}}, \ 
\overline{X} + t_{0.025} (n - 1) \cdot \cfrac{ \ \ U \ \ }{\sqrt{n}}
\right]
となる。

 参考資料日本統計学会(編集).日本統計学会認定 統計検定準１級対応 統計学実践ワークブック.学術図書出版社.2020
東京大学教養学部統計学教室.統計学入門(基礎統計学Ⅰ).東京大学出版会.1991
小寺 平治.新統計入門.裳華房.1996
稲垣 宣生, 山根 芳知, 吉田 光雄.統計学入門.裳華房.1992
長瀬道弘・芦野隆一.微分積分概説.サイエンス社.2007
加藤文元.チャート式シリーズ 大学教養 微分積分.数研出版.2024
\bf{\textcolor{red}{記事が役に立った方は「いいね」を押していただけると、すごく喜びます \ 笑}}

ご協力のほどよろしくお願いします。
はじめに

学習書籍について

参考書籍について

区間推定

母平均の区間推定

[1] 母分散が既知のとき

信頼区間・信頼係数の定義

[2] 母分散が未知のとき

参考資料

Discussion