📊

【統計検定準1級】点推定(最尤法)

2024/07/28に公開

はじめに

この記事では、統計検定準1級取得に向けて学習したことをまとめていきます。
工学系の数学ではなく数理あるあるの、論述ゴリゴリな解答になっていると思いますのであらかじめご了承ください。
注意:さらに計算過程は数学文化の『省略の美』を無視してエレファントに書いています。

【リンク紹介】
統計検定準1級のまとめ記事一覧
これまで書いたシリーズ記事一覧

学習書籍について

この記事では「統計学実践ワークブック」を中心に、学んだことをまとめていきます。記事を読んで本格的に勉強してみたいなと思った方は、是非ご購入を検討なさってください。


参考書籍について

統計実践ワークブックは、大量の知識項目と問題が収められている反面、計算過程や知識背景が大きく省略されているため、知識体系をきちんと学ぶ参考書として東京大学から出版されている名著「統計学入門」を使っています。
※ワークブックとしては素晴らしい質だと思いますが、どうしてもその内容量とページ数の都合上、問題のない範囲で削除されているということです。人によっては1冊で問題ない方もおられると思いますが、私には無理でした。



点推定

母集団母数\theta推定するとき、ある一つの値\hat{\theta}で指定する方法を点推定(point estimation)という。最尤(さいゆう)法は点推定のひとつである。

尤度(ゆうど)関数

確率分布:確率関数または確率密度関数
\theta:未知の母数(パラメータ)
f:確率分布
X_1, X_2, \cdots, X_n標本

標本X_1, X_2, \cdots, X_n\thetaを含み、それぞれ独立で同一の確率分布fに従うとする。すると、各標本に対する確率分布はそれぞれ次のように表せる。

f(x_1), f(x_2), \cdots, f(x_n)

ただし今回は、各確率分布が\thetaを持っていることを強調するため、次のように表すこととする。

f(x_1; \theta), f(x_2; \theta), \cdots, f(x_n; \theta)

このとき、尤度関数(likelihood function)L(\theta)を以下のように定義する。

\begin{alignat*}{2} L(\theta) &= f(x_1, x_2, \cdots, x_n; \theta) \\ &= f(x_1; \theta) \times f(x_2; \theta) \times \cdots \times f(x_n; \theta) \\ &= \prod_{i = 1}^{n} f(x_i; \theta) \end{alignat*}

この尤度関数L(\theta)は、X_1, X_2, \cdots, X_nの同時確率分布f(x_1, x_2, \cdots, x_n; \theta)を、\thetaを変数とした関数としてみなしたものである。

対数尤度

数学的に扱いやすくするため、尤度関数の対数を取って積の形から和の形へ変形する。
この変形したl(\theta)を、対数尤度(log-likelihood)という。

\begin{alignat*}{2} l(\theta) &= \log L(\theta) \\ &= \sum_{i = 1}^{n} \log f(x_i; \theta) \end{alignat*}

最尤法

「統計学では、観測された数値データX = (X_1, \cdots, X_n)の母集団分布が確率密度関数f(x, \theta)を持つ確率分布族P_{\theta} (\theta \in \Theta)のどれかに従うと想定して、そのパラメータ\theta(母数という)の値を推定することが多い。このようなとき、L_{n} (\theta; X) = \displaystyle\prod_{i = 1}^{n} f(X_i, \theta)\thetaの関数を見て、尤度という。その最大値を与える可測関数\hat{\theta_n} (X)が存在すれば、それを最尤推定量(maximum likelihood estimator)と呼び、これを用いてパラメータ値を推定することを最尤法という。」
(「岩波 数学入門辞書」.岩波書店.2007)より

(「統計学実践ワークブック」より)

第8章.例2
平均\muと分散vが未知の正規分布に独立同一に従う標本X_1, \cdots, X_nが得られているとする。このとき、\muおよびvの最尤推定量は標本平均および標本分布となることを示せ。

証明

標本平均を\overline{x}、標本分散をs^2とする。また、対数尤度をl(\mu, v)とおく。
※つまりこの例における母数\theta\muvであることに注意。

このとき、l(\mu, v)が最大値をとるとき、

\mu = \overline{x}, \hspace{5mm} v = s^2

であることを示せばよい。
s^2とおいたのは定義の形に寄せたかったからですが…センスがいいとは言えませんね。)
題意よりX_i正規分布N(\mu, v)にしたがうので、確率分布f(x_i)

f(x_i) = \cfrac{1}{\sqrt{2 \pi v}} \exp \left( - \cfrac{(x_i - \mu)^2}{2v} \right)

である。よってl(\mu, v)は、

\begin{alignat*}{2} & l(\mu, v) \\ =& \log \prod_{i = 1}^{n} \cfrac{1}{\sqrt{2 \pi v}} \exp \left( - \cfrac{(x_i - \mu)^2}{2v} \right) \\ =& \sum_{i = 1}^{n} \log \left( \cfrac{1}{\sqrt{2 \pi v}} \exp \left( - \cfrac{(x_i - \mu)^2}{2v} \right) \right) \\ =& \sum_{i = 1}^{n} \left( \log \cfrac{1}{\sqrt{2 \pi v}} + \log \exp \left( - \cfrac{(x_i - \mu)^2}{2v} \right) \right) \\ =& \sum_{i = 1}^{n} \log \cfrac{1}{\sqrt{2 \pi v}} - \sum_{i = 1}^{n} \cfrac{(x_i - \mu)^2}{2v} \\ =& n \log (2 \pi v)^{- \frac{1}{2}} - \cfrac{1}{ \ 2v \ } \sum_{i = 1}^{n} (x_i - \mu)^2 \\ =& - \frac{n}{2} \log (2 \pi v) - \cfrac{1}{ \ 2v \ } \sum_{i = 1}^{n} (x_i - \mu)^2 \\ \end{alignat*}

である。ここで、

\begin{alignat*}{2} & \sum_{i = 1}^{n} (x_i - \mu)^2 \\ =& \sum_{i = 1}^{n} ((x_i - \overline{x}) + (\overline{x} - \mu))^2 \\ =& \sum_{i = 1}^{n} (x_i - \overline{x})^2 + 2 \sum_{i = 1}^{n} (x_i - \overline{x})(\overline{x} - \mu) + \sum_{i = 1}^{n} (\overline{x} - \mu)^2 \\ =& \sum_{i = 1}^{n} (x_i - \overline{x})^2 + 2 \left( \sum_{i = 1}^{n} (x_i - \overline{x}) \right) (\overline{x} - \mu) + n (\overline{x} - \mu)^2 \\ =& \sum_{i = 1}^{n} (x_i - \overline{x})^2 + 2 \left( \sum_{i = 1}^{n} x_i - n \overline{x} \right) (\overline{x} - \mu) + n (\overline{x} - \mu)^2 \\ =& \sum_{i = 1}^{n} (x_i - \overline{x})^2 + 2 \left( n \sum_{i = 1}^{n} \cfrac{ \ x_i \ }{n} - n \overline{x} \right) (\overline{x} - \mu) + n (\overline{x} - \mu)^2 \\ =& \sum_{i = 1}^{n} (x_i - \overline{x})^2 + 2 \left( n \overline{x} - n \overline{x} \right) (\overline{x} - \mu) + n (\overline{x} - \mu)^2 \\ =& \sum_{i = 1}^{n} (x_i - \overline{x})^2 + 2 \times 0 \times (\overline{x} - \mu) + n (\overline{x} - \mu)^2 \\ =& \sum_{i = 1}^{n} (x_i - \overline{x})^2 + n (\overline{x} - \mu)^2 \\ \end{alignat*}

であるので、つまり

l(\mu, v) = - \frac{n}{2} \log (2 \pi v) - \cfrac{1}{ \ 2v \ } \sum_{i = 1}^{n} (x_i - \overline{x})^2 - \cfrac{n}{ \ 2v \ } (\overline{x} - \mu)^2 \\

となる。ここで、vを任意に固定したとき、すべての\muに対してl(\mu, v)が最大となるのは\mu = \overline{x}のときである(※高校数学のときに教わった(教えた 笑)「上に凸な二次関数の最大値」と同じ理屈です)。

以上より、\mu = \overline{x}は示された。以後、l(\mu, v)\mu\overline{x}を代入する。
つまり、

\begin{alignat*}{2} l(\overline{x}, v) &= - \frac{n}{2} \log (2 \pi v) - \cfrac{1}{ \ 2v \ } \sum_{i = 1}^{n} (x_i - \overline{x})^2 - \cfrac{n}{ \ 2v \ } (\overline{x} - \overline{x})^2 \\ &= - \frac{n}{2} \log (2 \pi v) - \cfrac{1}{ \ 2v \ } \sum_{i = 1}^{n} (x_i - \overline{x})^2 \\ &= - \frac{n}{2} \log (2 \pi v) - \cfrac{n}{ \ 2v \ } \sum_{i = 1}^{n} \cfrac{(x_i - \overline{x})^2}{n} \\ \end{alignat*}

である。ここで、標本分散の定義より

s^2 = \sum_{i = 1}^{n} \cfrac{(x_i - \overline{x})^2}{n}

であるから、

\begin{alignat*}{2} l(\overline{x}, v) &= - \frac{n}{2} \log (2 \pi v) - \cfrac{n}{ \ 2v \ } s^2 \\ \end{alignat*}

となる。ここで、

\begin{alignat*}{2} & \cfrac{d}{dv} l(\overline{x}, v) \\ =& - \cfrac{n}{2v} + \cfrac{n s^2}{2v^2} \\ =& \cfrac{-nv + n s^2}{2v^2} \\ =& \cfrac{n(s^2 - v)}{2v^2} \\ \end{alignat*}

であり、

\cfrac{d}{dv} l(\overline{x}, v) = 0

とおくと、v = s^2となる。

v \cdots s^2 \cdots
\cfrac{d}{dv} l(\overline{x}, v) + 0 -
l(\overline{x}, v) \nearrow 最大 \searrow

よって、増減表よりl(\overline{x}, v)が最大となるのは
v = s^2のときである。

機械学習の実践例

↓以下の記事に用いられている損失関数L_2は、この記事の対数尤度にマイナスを掛けたものになります。
https://zenn.dev/youken/articles/e91302826120dc

参考資料

\bf{\textcolor{red}{記事が役に立った方は「いいね」を押していただけると、すごく喜びます \ 笑}}
ご協力のほどよろしくお願いします。

Discussion