😎

尤度比検定とP値　# 理解志向型モデリング

2020/11/07に公開

なぜ書くのか？

Rのglm()実行時では意識することのない尤度比検定とP値の導出方法について理解するため。

尤度とは？

尤度とはモデルの当てはまりの良さを表す統計量。
尤度が一番大きいモデルが観測データに関して一番良いパラメータがあることになる。

最尤推定法

当てはまりを最大にするようなパラメータの値を探そうとするパラメータ推定法。
尤度は観測データの値になる確率を掛け合わせたものと言える。
例えば、ユーザ数を予測するポアソン分布のモデルを考える。３日間の日毎のユーザ数を{2,3,4}だった場合の尤度の式は以下である。

尤度=(ユーザ数が2になる確率)*(ユーザ数が3になる確率)*(ユーザ数が4になる確率)

ポアソン分布なのでこの尤度が最大になるλの値を求める。最大値を求めるに微分をしたいが尤度の右辺をそのまま微分するのは面倒なのでlogをつけて処理をする。
尤度や対数尤度が最大になるλを最尤推定量という。

尤度比検定

一定モデルとはλの値が定数のモデルであり、説明変数に依存しない。
xモデルはλの値が変数のモデルであり、説明変数に依存する。
初めに以下の式で尤度比を求める。

尤度比＝一定モデルの最大尤度/xモデルの最大尤度

しかしこのまま検定統計量には使わずに尤度比の対数をとり-2をかける。

△D1,2 = -2(log(一定モデルの最大尤度)-log(xモデルの最大尤度))

△D1,2の値は一定モデルとxモデルの逸脱度の差になっている。

帰無仮説と対立仮説

帰無仮説とは棄却されるべき仮説である。棄却されて場合は対立仮説が暫定的に正しいということになる。例えば、コインが表になる確率が1/10になるモデルを考える。100回のコインの試行が入った観測データをこのモデルに当てはめてみる。仮に表が100回出たとすれば、この仮説は棄却されるべきだろう。しかし、表が10回であればどうだろうか？仮説は間違っていないように思える。仮説が棄却されるべきかどうかの基準をもうけるためにP値と有意水準という考え方を導入する。

2種類の過誤

第一種の過誤

真のモデルであるが棄却されることを第一種の過誤と呼ぶ。
例えば、先ほどのコインの例だと表になる確率が1/2のモデルに100回の試行のうち70回が表の観測データを当てはめた場合、帰無仮説を棄却すべきだろうか。仮に1/2の確率とは異なるので棄却した場合、真のモデルであるが帰無仮説が棄却されてしまう。

第二種の過誤

真のモデルではないが棄却されないことを第二種の過誤と呼ぶ。
Neyman-Pearsonの検定の枠組みでは第一種の過誤の検討だけに専念するのであまり扱われない。

P値

P値とは統計的仮説検定において、帰無仮説の元で検定統計量がその値となる確率のこと。P値が小さいほど、検定統計量がその値となることはあまり起こりえないことを意味する。尤度比検定ではP値として尤度比が用いられる。
今回であれば、一定モデルとxモデルの逸脱度の差が△D1,2となる確率PがP値である。
P値が大きいか小さいかは有意水準を元に決められる。有意水準をαとすると以下の分岐でP値を判断する。

P≧α：帰無仮説は棄却できない。
P≦α：帰無仮説は棄却できる。

まとめ

今回は尤度比検定とP値についてまとめた。
次回はもう一つのモデルの当てはまり度の指標のAICについてまとめていきたい。