💬

最尤、MAP、ベイズ推定についてわかりやすく簡単にまとめた

2024/03/08に公開

事前知識

以下の記事で、同時分布からベイズの定理までを解説しているので、ぜひ読んでみてください。

最尤推定

概要

最尤推定では、X_1 ... X_Nというデータが与えられたとき、そのデータがどの分布に属するか、最も近いものを予測します。

\hat{\theta}=\argmax_{\theta}P(X_1...X_N|\theta) \\ =\argmax_{\theta}\prod_{i=1}^N P(X_i|\theta)

  • P(X_1...X_N|\theta)尤度と呼び、\thetaというパラメータに対する確率分布とデータの類似度を示します。
  • \argmax_{\theta} P(X_1...X_N|\theta)のように、最尤推定では、データに最も合うようにパラメータを調整します。
     

つまり最尤推定とは、X_1...X_Nというデータの分布に対して、\thetaの値を変化させて、P(\theta)との分布が最も似ている\thetaの値を求めることになります。
例えば、表の出る確率が不明なコインを10回振って5回表が出れば、最尤推定では表と裏の出る確率両方とも50%と推定できます。10回中8回表が出れば表の出る確率が80%、裏の出る確率が20%と推定されます。

最尤推定の問題点

しかし最尤推定には問題があります。それは、最尤推定はデータのみに頼った推定を行うところにあります。データX_1 ... X_Nが少ない時、もしくは極端に偏っているとき、\hat{\theta}が明らかにおかしい値になります。
 

たとえば、コインを10回投げて10回表が出れば、このコインは絶対に表が出ると推定されます。よって最尤推定は問題があることがわかります。

MAP推定

概要

MAP推定は、ベイズの定理を用いて、事後確率が最大となるパラメータを求める方法です。事前確率と尤度を掛け合わせて最大値を求めます。

\hat{\theta}=\argmax_{\theta}P(\theta|X_1...X_N) \\ =\argmax_{\theta}\lbrack \frac{P(X_1....X_N|\theta)P(\theta)}{P(X_1....X_N)} \rbrack \\ =\argmax_{\theta}\lbrack {P(X_1....X_N|\theta)P(\theta)} \rbrack \\ =\argmax_{\theta}\lbrack {\prod_{i=1}^{N}P(X_i|\theta)P(\theta)} \rbrack

  • P(X_1...X_N|\theta)尤度と呼び、\thetaというパラメータに対する確率分布とデータの類似度を示します。
  • P(\theta)事前分布と呼び、あらかじめX_1...X_Nはこんな分布に似てそうだなと予測した分布のことです。

特徴

  • MAP推定は、事前確率を用いるため、極端なデータの偏りに対して補正ができます
  • たとえば、サイコロを3回投げて3回「1」が出たとしても、事前確率から「1/6」が標準的な値と見なすことができるため、極端な結果を避けられます。

ベイズ推定

概要

ベイズ推定は、データに最も近い1つのパラメータを求めるのではなく、全てのパラメータの範囲での分布を求める方法です。

P(\theta|X_1 ... X_N)=\prod_{i=1}^{N}\frac{P(X_i|\theta)P(\theta)}{P(\theta)}

ベイズ推定では、すべてのパラメータの分布を計算します。

3つの推定法の予測密度分布について

予測密度分布とは、未知の新たなデータX^*を得られる確率の分布のことです。

最尤推定とMAP推定

最尤推定とMAP推定では、データX^*の確率分布は以下の式で表されます。

P(X^*|\theta)

ベイズ推定

ベイズ推定の場合、\thetaは1つに決まっておらず、分布になっているので、X^*の確率を求めるには、P(X^*|\theta)をすべての\thetaの場合について足し算した値になります。よって以下の式で与えられます。

P(X^*|X_1...X_N) = \int P(X^*|\theta)P(\theta|X_1...X_N) d\theta

また、\int P(X^*|\theta)P(\theta) d\thetaの、P(\theta)をデルタ関数で置き換えれば、

\int P(X^*|\theta) \delta [\theta - \hat{\theta}] d\theta \\ = P(X^*|\hat{\theta})
と書けるので、これは最尤推定やMAP推定と同じになります。

つまり、最尤推定とMAP推定はベイズ推定の派生と考えることができます。

参照

Discussion