一般化線形モデル #理解志向型モデリング
なぜ書くのか?
緑本で学んだ知識の定着率を上げるため。
今回は一般化線形モデルの概略をまとめる。
一般化線形モデルとは
以下の緑本の挿入画像が一般化線形モデルの立ち位置を理解するためにわかりやすいだろう。
線形モデルを拡張させたものである。
線形モデルが扱う確率分布は正規分布のみであるが、データの種類によって確率分布の種類も変える必要がある。緑本に書いてある確率分布の選び方は以下である。
確率分布の選び方
ポアソン分布
- 離散
- ゼロ以上、上限特になし
- 平均≈分散
二項分布
- 離散
- ゼロ以上で有限の範囲
- 分散は平均の関数
正規分布
- 連続
- 上限下限なし
- 分散と平均は無関係
ガンマ分布
- 連続
- 0以上、上限特になし
- 分散は平均の関数
一般化線形モデルの設計
一般化線形モデルの構成要素は3つである。
①誤差構造
②リンク関数
③線形予測子
誤差構造
誤差構造は従属変数が従う確率分布のことをいう。
例えば、クリック数と呼ばれる自然数の上限のない離散値であったら誤差構造はポアソン分布が妥当である。
[ポアソン分布の式]
従属変数の特徴をみた後に、上の確率分布の選び方を参考にして決める。
リンク関数
一般的に確率分布が決まると自動的にリンク関数が決まると言っても良いらしい。
なぜならリンク関数が存在する理由は確率分布の特徴と密接な関係があるからだ
線形予測子
Y=β0+β1x1+β2x2+...+βnxn
xは説明変数ベクトルでβは係数ベクトルである。つまりYの値はモデルパラメータβを係数とするベクトルxの線形結合である。
RのGLMライブラリを使った実践
今回はタイタニック号のオープンデータを利用する。乗客の生死の2値を目的変数に、階級と性別と年齢を説明変数に加えてロジスティック回帰分析を行う。
今回ロジスティック回帰分析を用いる理由は2つある。目的変数が2値であること。離散値であることだ。
目的変数が2値変数である場合、ロジスティック回帰分析は2項ロジスティック回帰分析と呼ばれる。
結果
階級と性別はP値が有意水準である0.05以下の2e-16であったので、統計的に意味があると言えるだろう。一方でParch(タイタニックに同乗している親/子供の数)はP値の値が0.174であるので統計的に意味がないと判断する。AICの値は833.32であった。
Call:
glm(formula = dat$Survived ~ ., family = binomial(link = "logit"),
data = dat)
Deviance Residuals:
Min 1Q Median 3Q Max
-2.2426 -0.7138 -0.4598 0.6422 2.2610
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 3.3867 0.3071 11.027 <2e-16 ***
Pclass -0.9563 0.1063 -8.995 <2e-16 ***
Sexmale -2.7113 0.1919 -14.130 <2e-16 ***
Parch -0.1409 0.1037 -1.360 0.174
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 1186.66 on 890 degrees of freedom
Residual deviance: 825.32 on 887 degrees of freedom
AIC: 833.32
Number of Fisher Scoring iterations: 4
まとめ
今回は緑本で勉強をした一般化線形モデルのまとめを行った。
次回はP値やAICのまとめをしようと思う。
Discussion