一般化線形モデル（特にロジスティック回帰）

 このスクラップは？一般化線形モデルのお勉強ノート。
主に、以下の書籍で学んだ内容をまとめて行く予定：
A. J. Dobson（田中 豊、森川 敏彦、山中 竹春、冨田 誠 翻訳）、一般化線形モデル入門 原著第2版（共立出版、2008）

https://www.kyoritsu-pub.co.jp/book/b10010684.html

https://amzn.asia/d/ahWa303

畳屋民也

 一般化線形モデルの最尤推定
 問題設定観測値 {(xi,yi)}i=1n\left\{(\boldsymbol{x}_i, y_i)\right\}_{i=1}^n{(xi​,yi​)}i=1n​ が与えられているものとする。
各サンプルは独立同時な過程により生成され、説明変数 x\boldsymbol{x}x が与えられた時の目的変数 yyy の（条件付き）確率密度分布関数はパラメータ β\boldsymbol{\beta}β を用いて f(y∣x;β)f(y\vert \boldsymbol{x}; \boldsymbol{\beta})f(y∣x;β) と表せるものとする。
ここで、説明変数 x\boldsymbol{x}x で条件づけられた yyy の期待値を μ=EY[y∣x;β]\mu = E_Y[y\vert \boldsymbol{x}; \boldsymbol{\beta}]μ=EY​[y∣x;β] と置いたとき、μ\muμ と x, β\boldsymbol{x}, \, \boldsymbol{\beta}x,β との間に適当な関数 g(μ)g(\mu)g(μ) を用いて以下のような関係があるものとする：
g(μ)=x⊤β.
g(\mu) = \boldsymbol{x}^\top \boldsymbol{\beta}.
g(μ)=x⊤β.Logistic 回帰の場合Logistic 回帰の場合、μ\muμ と x, β\boldsymbol{x}, \, \boldsymbol{\beta}x,β の間に以下のような関係を仮定する：
μ=11+e−x⊤β.
\mu = \frac{1}{1 + e^{-\boldsymbol{x}^\top \boldsymbol{\beta}}}.
μ=1+e−x⊤β1​.これは
log⁡(μ1+μ)=x⊤β
\log\left(\frac{\mu}{1 + \mu}\right) = \boldsymbol{x}^\top \boldsymbol{\beta}
log(1+μμ​)=x⊤βと書き換えられ、
g(μ)=log⁡(μ1+μ)
g(\mu) = \log\left(\frac{\mu}{1 + \mu}\right)
g(μ)=log(1+μμ​)に対応する。
このとき、尤度を最大化するパラメータ β=β^\boldsymbol{\beta} = \hat{\boldsymbol{\beta}}β=β^​ を求めたい。
ただし、対数尤度は以下のように定義する：
l(β)=∑i=1nli(β),
\begin{aligned}
l(\boldsymbol{\beta}) &= \sum_{i=1}^n l_i(\boldsymbol{\beta}),
\end{aligned}
l(β)​=i=1∑n​li​(β),​li(β)=log⁡f(yi∣xi;β).
\begin{aligned}
    l_i(\boldsymbol{\beta}) &= \log f(y_i \vert \boldsymbol{x}_i; \boldsymbol{\beta}).
\end{aligned}
li​(β)​=logf(yi​∣xi​;β).​
 パラメータ最尤推定量の数値的な求め方対数尤度 l(β)l(\boldsymbol{\beta})l(β) を最大化するパラメータ β^\hat{\boldsymbol{\beta}}β^​ を数値的に求めるには、以下のような漸化式を計算し b(k)\boldsymbol{b}^{(k)}b(k) の収束する先を求めれば良い：
b(k+1)=b(k)+EY[∂l(β)∂β∂l(β)∂β⊤∣β=b(k)|X;b(k)]−1∂l(β)∂β∣β=b(k).(1)
\begin{aligned}
\boldsymbol{b}^{(k+1)} &= \boldsymbol{b}^{(k)} + E_Y\left[\left.\frac{\partial l(\boldsymbol{\beta})}{\partial \boldsymbol{\beta}}\frac{\partial l(\boldsymbol{\beta})}{\partial \boldsymbol{\beta}^\top}\right|_{\boldsymbol{\beta} = \boldsymbol{b}^{(k)}} \middle\vert \boldsymbol{X}; \boldsymbol{b}^{(k)}\right]^{-1} \left.\frac{\partial l(\boldsymbol{\beta})}{\partial \boldsymbol{\beta}}\right|_{\boldsymbol{\beta}=\boldsymbol{b}^{(k)}}. \tag{1}
\end{aligned}
b(k+1)​=b(k)+EY​[∂β∂l(β)​∂β⊤∂l(β)​​β=b(k)​​X;b(k)]−1∂β∂l(β)​​β=b(k)​.​(1)ただし、 X=(x1,x2,...,xn)⊤\boldsymbol{X} = (\boldsymbol{x}_1,\boldsymbol{x}_2,..., \boldsymbol{x}_n)^\topX=(x1​,x2​,...,xn​)⊤ である。

 式(1)の導出β^\hat{\boldsymbol{\beta}}β^​ は l(β)l(\boldsymbol{\beta})l(β) が最大となるパラメータであることから、
∂l(β)∂β=0
\frac{\partial l(\boldsymbol{\beta})}{\partial \boldsymbol{\beta}} = \boldsymbol{0}
∂β∂l(β)​=0となる β\boldsymbol{\beta}β を探したい。
β^\boldsymbol{\hat{\beta}}β^​ に十分近い値を持つ b\boldsymbol{b}b について、以下のような近似式を考える：
∂l(β)∂β∣β=β^≈∂l(β)∂β∣β=b+∂2l(β)∂β∂β⊤∣β=b(β^−b).
\left.\frac{\partial l(\boldsymbol{\beta})}{\partial \boldsymbol{\beta}}\right|_{\boldsymbol{\beta} = \hat{\boldsymbol{\beta}}}
\approx \left.\frac{\partial l(\boldsymbol{\beta})}{\partial \boldsymbol{\beta}}\right|_{\boldsymbol{\beta} = \boldsymbol{b}} + \left.\frac{\partial^2 l(\boldsymbol{\beta})}{\partial \boldsymbol{\beta} \partial \boldsymbol{\beta}^\top}\right|_{\boldsymbol{\beta} = \boldsymbol{b}} (\hat{\boldsymbol{\beta}} - \boldsymbol{b}).
∂β∂l(β)​​β=β^​​≈∂β∂l(β)​​β=b​+∂β∂β⊤∂2l(β)​​β=b​(β^​−b).ここで
∂l(β)∂β∣β=β^=0
\left.\frac{\partial l(\boldsymbol{\beta})}{\partial \boldsymbol{\beta}}\right|_{\boldsymbol{\beta} = \hat{\boldsymbol{\beta}}} = \boldsymbol{0}
∂β∂l(β)​​β=β^​​=0を代入すると、上記の式は以下のように書き改めることができる：
β^≈b−(∂2l(β)∂β∂β⊤∣β=b)−1∂l(β)∂β∣β=b
\hat{\boldsymbol{\beta}} \approx \boldsymbol{b} - \left(\left.\frac{\partial^2 l(\boldsymbol{\beta})}{\partial \boldsymbol{\beta} \partial \boldsymbol{\beta}^\top}\right|_{\boldsymbol{\beta} = \boldsymbol{b}}\right)^{-1}\left.\frac{\partial l(\boldsymbol{\beta})}{\partial \boldsymbol{\beta}}\right|_{\boldsymbol{\beta}=\boldsymbol{b}}
β^​≈b−(∂β∂β⊤∂2l(β)​​β=b​)−1∂β∂l(β)​​β=b​このとき、
∂2l(β)∂β∂β⊤∣β=b
\left.\frac{\partial^2 l(\boldsymbol{\beta})}{\partial \boldsymbol{\beta} \partial \boldsymbol{\beta}^\top}\right|_{\boldsymbol{\beta} = \boldsymbol{b}}
∂β∂β⊤∂2l(β)​​β=b​をその期待値
EY[∂2l(β)∂β∂β⊤∣β=b|x;b]
E_Y\left[\left.\frac{\partial^2 l(\boldsymbol{\beta})}{\partial \boldsymbol{\beta} \partial \boldsymbol{\beta}^\top}\right|_{\boldsymbol{\beta} = \boldsymbol{b}}\middle\vert \boldsymbol{x}; \boldsymbol{b}\right]
EY​[∂β∂β⊤∂2l(β)​​β=b​​x;b]で置き換えられるものとし、さらに
EY[∂2l(β)∂β∂β⊤|x;β]=−EY[∂l(β)∂β∂l(β)∂β⊤|x;β]
E_Y\left[\frac{\partial^2 l(\boldsymbol{\beta})}{\partial \boldsymbol{\beta} \partial \boldsymbol{\beta}^\top} \middle\vert \boldsymbol{x}; \boldsymbol{\beta}\right]
= -E_Y\left[\frac{\partial l(\boldsymbol{\beta})}{\partial \boldsymbol{\beta}} \frac{\partial l(\boldsymbol{\beta})}{\partial \boldsymbol{\beta}^\top}\middle\vert \boldsymbol{x}; \boldsymbol{\beta}\right]
EY​[∂β∂β⊤∂2l(β)​​x;β]=−EY​[∂β∂l(β)​∂β⊤∂l(β)​​x;β]という関係を用いると、
β^≈b+EY[∂l(β)∂β∂l(β)∂β⊤∣β=b|x;b]−1∂l(β)∂β∣β=b
\hat{\boldsymbol{\beta}}
\approx \boldsymbol{b} + E_Y\left[\left.\frac{\partial l(\boldsymbol{\beta})}{\partial \boldsymbol{\beta}} \frac{\partial l(\boldsymbol{\beta})}{\partial \boldsymbol{\beta}^\top}\right|_{\boldsymbol{\beta} = \boldsymbol{b}}\middle\vert \boldsymbol{x}; \boldsymbol{b}\right]^{-1}\left.
    \frac{\partial l(\boldsymbol{\beta})}{\partial \boldsymbol{\beta}}\right|_{\boldsymbol{\beta}=\boldsymbol{b}}
β^​≈b+EY​[∂β∂l(β)​∂β⊤∂l(β)​​β=b​​x;b]−1∂β∂l(β)​​β=b​のように書き換えることができる。
これをもとに、b→b(k), β^→b(k+1)\boldsymbol{b} \to \boldsymbol{b}^{(k)}, \, \hat{\boldsymbol{\beta}} \to \boldsymbol{b}^{(k+1)}b→b(k),β^​→b(k+1) と置き換えると、式(1)が導かれる。

畳屋民也

 一般化線形モデルの最尤推定その２: 重み付き最小二乗法による別表現一般化線形モデルにおいて、対数尤度 l(β)l(\boldsymbol{\beta})l(β) を最大化するパラメータ β=β^\boldsymbol{\beta} = \hat{\boldsymbol{\beta}}β=β^​ を数値的に求めるには、以下のような漸化式を計算すればよかった：
b(k+1)=b(k)+EY[∂l(β)∂β∂l(β)∂β⊤∣β=b(k)|X;b(k)]−1∂l(β)∂β∣β=b(k)(1)
\begin{aligned}
\boldsymbol{b}^{(k+1)} &= \boldsymbol{b}^{(k)} + E_Y\left[\left.\frac{\partial l(\boldsymbol{\beta})}{\partial \boldsymbol{\beta}}\frac{\partial l(\boldsymbol{\beta})}{\partial \boldsymbol{\beta}^\top}\right|_{\boldsymbol{\beta} = \boldsymbol{b}^{(k)}} \middle\vert \boldsymbol{X}; \boldsymbol{b}^{(k)}\right]^{-1} \left.\frac{\partial l(\boldsymbol{\beta})}{\partial \boldsymbol{\beta}}\right|_{\boldsymbol{\beta}=\boldsymbol{b}^{(k)}} \tag{1}
\end{aligned}
b(k+1)​=b(k)+EY​[∂β∂l(β)​∂β⊤∂l(β)​​β=b(k)​​X;b(k)]−1∂β∂l(β)​​β=b(k)​​(1)https://zenn.dev/link/comments/0fa9737c2e71b3
ここで、説明変数 x\boldsymbol{x}x とパラメータ β\boldsymbol{\beta}β が与えられている時の目的変数 yyy の（条件付き）確率密度分布関数 f(y∣x;β)f(y\vert \boldsymbol{x}; \boldsymbol{\beta})f(y∣x;β) が以下のような形で表せるものとする：
f(y∣x;β)=exp⁡{yb(x;β)+c(x;β)+d(y)}.
\begin{aligned}
    f(y\vert \boldsymbol{x}; \boldsymbol{\beta}) = \exp\left\{ y b(\boldsymbol{x}; \boldsymbol{\beta}) + c(\boldsymbol{x}; \boldsymbol{\beta}) + d(y)\right\}.
\end{aligned}
f(y∣x;β)=exp{yb(x;β)+c(x;β)+d(y)}.​なお、この時、li(β)=yib(xi;β)+c(xi;β)+d(yi)l_i(\boldsymbol{\beta}) = y_i b(\boldsymbol{x}_i; \boldsymbol{\beta}) + c(\boldsymbol{x}_i; \boldsymbol{\beta}) + d(y_i)li​(β)=yi​b(xi​;β)+c(xi​;β)+d(yi​) と表すことができる。
すると、式(1)は以下のように表すことができる：
b(k+1)=(X⊤W(k)X)−1X⊤W(k)z(k)(2)
\begin{aligned}
\boldsymbol{b}^{(k+1)} &=  \left(\boldsymbol{X}^\top \boldsymbol{W}^{(k)} \boldsymbol{X}\right)^{-1} \boldsymbol{X}^\top \boldsymbol{W}^{(k)} \boldsymbol{z}^{(k)} \tag{2}
\end{aligned}
b(k+1)​=(X⊤W(k)X)−1X⊤W(k)z(k)​(2)ただし、W(k), z(k)\boldsymbol{W}^{(k)}, \, \boldsymbol{z}^{(k)}W(k),z(k) は以下のように定義する：
zi(k)=(dg(μ)dμ∣μ=μi(k))−1(yi−μi(k))+xi⊤b(k)
z_i^{(k)} =  \left( \left. \frac{dg(\mu)}{d\mu} \right|_{\mu = \mu_i^{(k)}} \right)^{-1} (y_i - \mu_i^{(k)})+ \boldsymbol{x}_i^\top \boldsymbol{b}^{(k)}
zi(k)​=(dμdg(μ)​​μ=μi(k)​​)−1(yi​−μi(k)​)+xi⊤​b(k)Wij(k)={1VY[yi∣xi;b(k)](dg(μ)dμ∣μ=μi(k))−2(i=j)0(i≠j)
W_{ij}^{(k)} =
\begin{cases}
    \frac{1}{V_Y[y_i\vert \boldsymbol{x}_i; \boldsymbol{b}^{(k)}]} \left( \left. \frac{dg(\mu)}{d\mu} \right|_{\mu = \mu_i^{(k)}} \right)^{-2} &\quad (i=j)\\
    0 & \quad (i \ne j)
\end{cases}
Wij(k)​=⎩⎨⎧​VY​[yi​∣xi​;b(k)]1​(dμdg(μ)​​μ=μi(k)​​)−20​(i=j)(i=j)​なお、
μi(k)=EY[yi∣xi;b(k)].
\mu_i^{(k)} = E_{Y}[y_i \vert \boldsymbol{x}_i; \boldsymbol{b}^{(k)}].
μi(k)​=EY​[yi​∣xi​;b(k)].以下、これを示す。

 導出式(1)のうち、
∂l(β)∂β,EY[∂l(β)∂β∂l(β)∂β⊤|X;β]
\frac{\partial l(\boldsymbol{\beta})}{\partial \boldsymbol{\beta}}, \quad
E_Y\left[\frac{\partial l(\boldsymbol{\beta})}{\partial \boldsymbol{\beta}}\frac{\partial l(\boldsymbol{\beta})}{\partial \boldsymbol{\beta}^\top} \middle\vert \boldsymbol{X}; \boldsymbol{\beta}\right]
∂β∂l(β)​,EY​[∂β∂l(β)​∂β⊤∂l(β)​​X;β]について式変形を行う。
なお、以降では、
μi=μ(xi;β)=EY[yi∣xi;β]
\begin{aligned}
\mu_i &= \mu(\boldsymbol{x}_i; \boldsymbol{\beta})\\
&= E_{Y}[y_i \vert \boldsymbol{x}_i; \boldsymbol{\beta}]
\end{aligned}
μi​​=μ(xi​;β)=EY​[yi​∣xi​;β]​と表すことにする。
まず、
∂li(β)∂β=∂μ∂β∣μ=μi∂li(β)∂μ=1VY[yi∣xi;β](dg(μ)dμ∣μ=μi)−1xi(yi−μi)(3)
\begin{aligned}
\frac{\partial l_i(\boldsymbol{\beta})}{\partial \boldsymbol{\beta}} &= \left. \frac{\partial \mu}{\partial \boldsymbol{\beta}}\right|_{\mu=\mu_i} \frac{\partial l_i(\boldsymbol{\beta})}{\partial \mu}\\
&= \frac{1}{V_Y[y_i \vert \boldsymbol{x}_i; \boldsymbol{\beta}]} \left( \left. \frac{dg(\mu)}{d\mu} \right|_{\mu = \mu_i} \right)^{-1} \boldsymbol{x}_i (y_i - \mu_i) \tag{3}
\end{aligned}
∂β∂li​(β)​​=∂β∂μ​​μ=μi​​∂μ∂li​(β)​=VY​[yi​∣xi​;β]1​(dμdg(μ)​​μ=μi​​)−1xi​(yi​−μi​)​(3)と表すことができる。
なぜなら、
∂μ∂β=(dg(μ)dμ)−1x(4)
\frac{\partial \mu}{\partial \boldsymbol{\beta}} = \left( \frac{dg(\mu)}{d\mu} \right)^{-1} \boldsymbol{x} \tag{4}
∂β∂μ​=(dμdg(μ)​)−1x(4)∂li(β)∂μ=∂b∂μ∣μ=μi(yi−μi)=1VY[yi∣xi;β](yi−μi)(5)
\begin{aligned}
\frac{\partial l_i(\boldsymbol{\beta})}{\partial \mu} &= \left.\frac{\partial b}{\partial \mu}\right|_{\mu = \mu_i} (y_i - \mu_i)\\
&= \frac{1}{V_Y[y_i \vert \boldsymbol{x}_i; \boldsymbol{\beta}]} (y_i - \mu_i)\tag{5}
\end{aligned}
∂μ∂li​(β)​​=∂μ∂b​​μ=μi​​(yi​−μi​)=VY​[yi​∣xi​;β]1​(yi​−μi​)​(5)が成り立つからである。
式(4)の導出g(μ)=x⊤βg(\mu) = \boldsymbol{x}^\top \boldsymbol{\beta}g(μ)=x⊤β を β\boldsymbol{\beta}β で偏微分して、
∂g(μ)∂β=∂μ∂βdg(μ)∂μ=∂(x⊤β)∂β=x
\begin{aligned}
    \frac{\partial g(\mu)}{\partial \boldsymbol{\beta}}
    &= \frac{\partial \mu}{\partial \boldsymbol{\beta}} \frac{dg(\mu)}{\partial \mu}\\
    &= \frac{\partial (\boldsymbol{\boldsymbol{x}^\top \boldsymbol{\beta}})}{\partial \boldsymbol{\beta}} = \boldsymbol{x}
\end{aligned}
∂β∂g(μ)​​=∂β∂μ​∂μdg(μ)​=∂β∂(x⊤β)​=x​したがって、
∂μ∂β=(dg(μ)dμ)−1x
\frac{\partial \mu}{\partial \boldsymbol{\beta}} = \left( \frac{dg(\mu)}{d\mu} \right)^{-1} \boldsymbol{x}
∂β∂μ​=(dμdg(μ)​)−1xが成り立つ。
式(5) の導出以下のような lo(β)l_o(\boldsymbol{\beta})lo​(β) を考える：
lo(β)=yb(x;β)+c(x;β)+d(y).
l_o(\boldsymbol{\beta}) = y b(\boldsymbol{x}; \boldsymbol{\beta}) + c(\boldsymbol{x}; \boldsymbol{\beta}) + d(y).
lo​(β)=yb(x;β)+c(x;β)+d(y).この両辺を μ\muμ で微分すると、以下が成り立つ：
∂lo(β)∂μ=y∂b(x;β)∂μ+∂c(x;β)∂μ.(6)
\frac{\partial l_o(\boldsymbol{\beta})}{\partial \mu} = y \frac{\partial b(\boldsymbol{x}; \boldsymbol{\beta})}{\partial \mu} + \frac{\partial c(\boldsymbol{x}; \boldsymbol{\beta})}{\partial \mu}. \tag{6}
∂μ∂lo​(β)​=y∂μ∂b(x;β)​+∂μ∂c(x;β)​.(6)ここで、両辺の Y∼f(Y∣x;β)Y \sim f(Y\vert \boldsymbol{x}; \boldsymbol{\beta})Y∼f(Y∣x;β) についての期待値をとると、以下のようになる：
EY[∂lo(β)∂μ|x;β]=μ∂b(x;β)∂μ+∂c(x;β)∂μ.
E_Y\left[\frac{\partial l_o(\boldsymbol{\beta})}{\partial \mu}\middle\vert \boldsymbol{x}; \boldsymbol{\beta}\right] = \mu \frac{\partial b(\boldsymbol{x}; \boldsymbol{\beta})}{\partial \mu} + \frac{\partial c(\boldsymbol{x}; \boldsymbol{\beta})}{\partial \mu}.
EY​[∂μ∂lo​(β)​​x;β]=μ∂μ∂b(x;β)​+∂μ∂c(x;β)​.一方で
EY[∂lo(β)∂μ|x;β]=0
E_Y\left[\frac{\partial l_o(\boldsymbol{\beta})}{\partial \mu}\middle\vert \boldsymbol{x}; \boldsymbol{\beta}\right] = 0
EY​[∂μ∂lo​(β)​​x;β]=0より
∂c(x;β)∂μ=−μ∂b(x;β)∂μ
\frac{\partial c(\boldsymbol{x}; \boldsymbol{\beta})}{\partial \mu} = -\mu \frac{\partial b(\boldsymbol{x}; \boldsymbol{\beta})}{\partial \mu}
∂μ∂c(x;β)​=−μ∂μ∂b(x;β)​が成り立つので、これを式(6)に代入することで
∂lo(β)∂μ=∂b(x;β)∂μ(y−μ)(7)
\frac{\partial l_o(\boldsymbol{\beta})}{\partial \mu} = \frac{\partial b(\boldsymbol{x}; \boldsymbol{\beta})}{\partial \mu} (y - \mu) \tag{7}
∂μ∂lo​(β)​=∂μ∂b(x;β)​(y−μ)(7)が得られる。
さらに、式(6)の分散については、以下のように表すことができる：
VY[∂lo(β)∂μ|x;β]={∂b(x;β)∂μ}2VY[Y∣x;β]=−EY[∂2lo(β)∂μ2|x;β].(8)
\begin{aligned}
    V_Y\left[\frac{\partial l_o(\boldsymbol{\beta})}{\partial \mu}\middle\vert \boldsymbol{x}; \boldsymbol{\beta}\right]
    &= \left\{\frac{\partial b(\boldsymbol{x}; \boldsymbol{\beta})}{\partial \mu}\right\}^2 V_Y[Y \vert \boldsymbol{x}; \boldsymbol{\beta}]\\
    &= -E_Y\left[\frac{\partial^2 l_o(\boldsymbol{\beta})}{\partial \mu^2}\middle\vert \boldsymbol{x}; \boldsymbol{\beta}\right]. \tag{8}
\end{aligned}
VY​[∂μ∂lo​(β)​​x;β]​={∂μ∂b(x;β)​}2VY​[Y∣x;β]=−EY​[∂μ2∂2lo​(β)​​x;β].​(8)ここで、式(7)の両辺を μ\muμ で偏微分することにより
∂2lo(β)∂μ2=∂2b(x;β)∂μ2(y−μ)−∂b(x;β)∂μ
\frac{\partial^2 l_o(\boldsymbol{\beta})}{\partial \mu^2} =
    \frac{\partial^2 b(\boldsymbol{x}; \boldsymbol{\beta})}{\partial \mu^2} (y - \mu) - \frac{\partial b(\boldsymbol{x}; \boldsymbol{\beta})}{\partial \mu}
∂μ2∂2lo​(β)​=∂μ2∂2b(x;β)​(y−μ)−∂μ∂b(x;β)​となるので
EY[∂2lo(β)∂μ2|x;β]=−∂b(x;β)∂μ
\begin{aligned}
E_Y\left[\frac{\partial^2 l_o(\boldsymbol{\beta})}{\partial \mu^2}\middle\vert \boldsymbol{x}; \boldsymbol{\beta}\right]
&= - \frac{\partial b(\boldsymbol{x}; \boldsymbol{\beta})}{\partial \mu}
\end{aligned}
EY​[∂μ2∂2lo​(β)​​x;β]​=−∂μ∂b(x;β)​​が成り立つ。
これを式(8)に代入することで、
{∂b(x;β)∂μ}2VY[y∣x;β]=∂b(x,β)∂μ
\left\{\frac{\partial b(\boldsymbol{x}; \boldsymbol{\beta})}{\partial \mu}\right\}^2 V_Y[y \vert \boldsymbol{x}; \boldsymbol{\beta}] = \frac{\partial b(\boldsymbol{x}, \boldsymbol{\beta})}{\partial \mu}
{∂μ∂b(x;β)​}2VY​[y∣x;β]=∂μ∂b(x,β)​が成り立つことから
∂b(x;β)∂μ=1VY[y∣x;β](9)
\frac{\partial b(\boldsymbol{x}; \boldsymbol{\beta})}{\partial \mu} = \frac{1}{V_Y[y\vert \boldsymbol{x}; \boldsymbol{\beta}]} \tag{9}
∂μ∂b(x;β)​=VY​[y∣x;β]1​(9)が成り立つ。
以上から、式(7)、(9)合わせて、
∂lo(β)∂μ=1VY[y∣x;β](y−μ)
\frac{\partial l_o(\boldsymbol{\beta})}{\partial \mu}
= \frac{1}{V_Y[y \vert \boldsymbol{x}; \boldsymbol{\beta}]} (y - \mu)
∂μ∂lo​(β)​=VY​[y∣x;β]1​(y−μ)が成り立ち、これに y=yi, x=xiy=y_i, \, \boldsymbol{x}=\boldsymbol{x}_iy=yi​,x=xi​ を代入することで式(5)が示される。
したがって、
∂l(β)∂β=∑i=1n∂li(β)∂β=∑i=1n1VY[yi∣xi;β](dg(μ)dμ∣μ=μi)−1xi(yi−μi)
\begin{aligned}
\frac{\partial l(\boldsymbol{\beta})}{\partial \boldsymbol{\beta}}
&= \sum_{i=1}^n \frac{\partial l_i(\boldsymbol{\beta})}{\partial \boldsymbol{\beta}}\\
&= \sum_{i=1}^n \frac{1}{V_Y[y_i\vert \boldsymbol{x}_i; \boldsymbol{\beta}]} \left( \left. \frac{dg(\mu)}{d\mu} \right|_{\mu = \mu_i} \right)^{-1} \boldsymbol{x}_i (y_i - \mu_i)
\end{aligned}
∂β∂l(β)​​=i=1∑n​∂β∂li​(β)​=i=1∑n​VY​[yi​∣xi​;β]1​(dμdg(μ)​​μ=μi​​)−1xi​(yi​−μi​)​と表すことができる。
さらにこれを用いることで、
EY[∂l(β)∂β∂l(β)∂β⊤|X;β]=∑i=1nEY[∂li(β)∂β∂li(β)∂β⊤|xi;β]=∑i=1n1VY[yi∣xi;β](dg(μ)dμ∣μ=μi)−2xixi⊤
\begin{aligned}
    E_Y\left[\frac{\partial l(\boldsymbol{\beta})}{\partial \boldsymbol{\beta}}\frac{\partial l(\boldsymbol{\beta})}{\partial \boldsymbol{\beta}^\top} \middle\vert \boldsymbol{X}; \boldsymbol{\beta}\right]
    &= \sum_{i=1}^n E_Y\left[\frac{\partial l_i(\boldsymbol{\beta})}{\partial \boldsymbol{\beta}}\frac{\partial l_i(\boldsymbol{\beta})}{\partial \boldsymbol{\beta}^\top}\middle\vert \boldsymbol{x}_i; \boldsymbol{\beta}\right]\\
    &=\sum_{i=1}^n \frac{1}{V_Y[y_i\vert \boldsymbol{x}_i; \boldsymbol{\beta}]} \left( \left. \frac{dg(\mu)}{d\mu} \right|_{\mu = \mu_i} \right)^{-2} \boldsymbol{x}_i \boldsymbol{x}_i^\top
\end{aligned}
EY​[∂β∂l(β)​∂β⊤∂l(β)​​X;β]​=i=1∑n​EY​[∂β∂li​(β)​∂β⊤∂li​(β)​​xi​;β]=i=1∑n​VY​[yi​∣xi​;β]1​(dμdg(μ)​​μ=μi​​)−2xi​xi⊤​​と表すことができる。

ただし、 i≠ji \ne ji=j のとき ∂li(β)/∂β, ∂lj(β)/∂β\partial l_i (\boldsymbol{\beta}) / \partial \boldsymbol{\beta}, \, \partial l_j (\boldsymbol{\beta}) / \partial \boldsymbol{\beta}∂li​(β)/∂β,∂lj​(β)/∂β が互いに独立であることを用いた。
ここで W(β), z~\boldsymbol{W}(\boldsymbol{\beta}), \, \tilde{\boldsymbol{z}}W(β),z~ を以下のように定義する：
Wij(β)={1VY[yi∣xi;β](dg(μ)dμ∣μ=μi)−2(i=j)0(i≠j)
W_{ij}(\boldsymbol{\beta}) =
\begin{cases}
    \frac{1}{V_Y[y_i\vert \boldsymbol{x}_i; \boldsymbol{\beta}]} \left( \left. \frac{dg(\mu)}{d\mu} \right|_{\mu = \mu_i} \right)^{-2} &\quad (i=j)\\
    0 & \quad (i \ne j)
\end{cases}
Wij​(β)=⎩⎨⎧​VY​[yi​∣xi​;β]1​(dμdg(μ)​​μ=μi​​)−20​(i=j)(i=j)​z~i=(dg(μ)dμ∣μ=μi)−1(yi−μi)
\tilde{z}_i = \left( \left. \frac{dg(\mu)}{d\mu} \right|_{\mu = \mu_i} \right)^{-1} (y_i - \mu_i)
z~i​=(dμdg(μ)​​μ=μi​​)−1(yi​−μi​)これらを用いると、
∂l(β)∂β=X⊤W(β)z~EY[∂l(β)∂β∂l(β)∂β⊤|X;β]=X⊤W(β)X
\begin{aligned}
\frac{\partial l(\boldsymbol{\beta})}{\partial \boldsymbol{\beta}}
&= \boldsymbol{X}^\top \boldsymbol{W}(\boldsymbol{\beta}) \tilde{\boldsymbol{z}}\\
    E_Y\left[\frac{\partial l(\boldsymbol{\beta})}{\partial \boldsymbol{\beta}}\frac{\partial l(\boldsymbol{\beta})}{\partial \boldsymbol{\beta}^\top} \middle\vert \boldsymbol{X}; \boldsymbol{\beta}\right]
    &= \boldsymbol{X}^\top \boldsymbol{W}(\boldsymbol{\beta}) \boldsymbol{X}
\end{aligned}
∂β∂l(β)​EY​[∂β∂l(β)​∂β⊤∂l(β)​​X;β]​=X⊤W(β)z~=X⊤W(β)X​と書き直すことができる。

したがって
z=z~+Xβ
\boldsymbol{z} = \tilde{\boldsymbol{z}} + \boldsymbol{X}\boldsymbol{\beta}
z=z~+Xβと置くことで
β+EY[∂l(β)∂β∂l(β)∂β⊤|X;β]−1∂l(β)∂β=(X⊤W(β)X)−1X⊤W(β)z
\begin{aligned}
\boldsymbol{\beta} + E_Y\left[\frac{\partial l(\boldsymbol{\beta})}{\partial \boldsymbol{\beta}}\frac{\partial l(\boldsymbol{\beta})}{\partial \boldsymbol{\beta}^\top} \middle\vert \boldsymbol{X}; \boldsymbol{\beta}\right]^{-1} \frac{\partial l(\boldsymbol{\beta})}{\partial \boldsymbol{\beta}}\\
 = \left(\boldsymbol{X}^\top \boldsymbol{W}(\boldsymbol{\beta}) \boldsymbol{X}\right)^{-1} \boldsymbol{X}^\top \boldsymbol{W}(\boldsymbol{\beta}) \boldsymbol{z}
\end{aligned}
β+EY​[∂β∂l(β)​∂β⊤∂l(β)​​X;β]−1∂β∂l(β)​=(X⊤W(β)X)−1X⊤W(β)z​が言えるので、β=b(k)\boldsymbol{\beta} = \boldsymbol{b}^{(k)}β=b(k) を代入することで式(2)が導かれる。

畳屋民也

 Logistic 回帰と最尤推定これまでの内容の例として、Logistic 回帰に当てはめて考えてみる。
https://zenn.dev/link/comments/0fa9737c2e71b3

 モデル設定Logistic 回帰の場合、yiy_iyi​ の確率密度分布は以下のように表すことができる：
f(yi∣xi;β)=π(xi;β)yi(1−π(xi;β))1−yi.
f(y_i\vert \boldsymbol{x}_i; \boldsymbol{\beta}) = \pi(\boldsymbol{x}_i; \boldsymbol{\beta})^{y_i}\left(1 - \pi(\boldsymbol{x}_i; \boldsymbol{\beta})\right)^{1 - y_i}.
f(yi​∣xi​;β)=π(xi​;β)yi​(1−π(xi​;β))1−yi​.ただし、π(xi;β)\pi(\boldsymbol{x}_i; \boldsymbol{\beta})π(xi​;β) は yiy_iyi​ の（条件付き）期待値
EY[yi∣xi,β]=π(xi;β)
E_Y[y_i\vert \boldsymbol{x}_i, \boldsymbol{\beta}] = \pi(\boldsymbol{x}_i; \boldsymbol{\beta})
EY​[yi​∣xi​,β]=π(xi​;β)であり、以下のように表される：
π(xi;β)=11+e−xi⊤β.
\pi(\boldsymbol{x}_i; \boldsymbol{\beta}) = \frac{1}{1 + e^{-\boldsymbol{x}_i^\top \boldsymbol{\beta}}}.
π(xi​;β)=1+e−xi⊤​β1​.なお、上記は式変形すると
log⁡(π(xi;β)1−π(xi;β))=xi⊤β
\log \left( \frac{\pi(\boldsymbol{x}_i; \boldsymbol{\beta})}{1 - \pi(\boldsymbol{x}_i; \boldsymbol{\beta})}\right) = \boldsymbol{x}_i^\top \boldsymbol{\beta}
log(1−π(xi​;β)π(xi​;β)​)=xi⊤​βと表せるので、
g(μ)=log⁡(μ1−μ)
g(\mu) = \log\left(\frac{\mu}{1 - \mu}\right)
g(μ)=log(1−μμ​)に相当する。

 最尤推定
 対数尤度とその微分ロジスティック回帰において、対数尤度 l(β)l(\boldsymbol{\beta})l(β) は以下のように表される：
l(β)=∑i=1nlog⁡f(yi∣xi;β).
\begin{aligned}
l(\boldsymbol{\beta}) &= \sum_{i=1}^n \log f(y_i\vert \boldsymbol{x}_i; \boldsymbol{\beta}).
\end{aligned}
l(β)​=i=1∑n​logf(yi​∣xi​;β).​ここで、l(β)=∑i=1nli(β)l(\boldsymbol{\beta}) = \sum_{i=1}^n l_i(\boldsymbol{\beta})l(β)=∑i=1n​li​(β) とすると、li(β)=log⁡f(yi;xi,β)l_i(\boldsymbol{\beta}) = \log f(y_i; \boldsymbol{x}_i ,\boldsymbol{\beta})li​(β)=logf(yi​;xi​,β) は以下のように表すことができる：
li(β)=yilog⁡(π(xi;β)1−π(xi;β))+log⁡(1−π(xi;β))
l_i(\boldsymbol{\beta}) = y_i \log \left( \frac{\pi(\boldsymbol{x}_i; \boldsymbol{\beta})}{1 - \pi(\boldsymbol{x}_i; \boldsymbol{\beta})}\right) + \log \left( 1 - \pi(\boldsymbol{x}_i; \boldsymbol{\beta})\right)
li​(β)=yi​log(1−π(xi​;β)π(xi​;β)​)+log(1−π(xi​;β))li(β)l_i(\boldsymbol{\beta})li​(β) を β\boldsymbol{\beta}β で偏微分すると、以下のようになる：
∂li(β)∂β=(yi−π(xi;β))xi.
\frac{\partial l_i(\boldsymbol{\beta})}{\partial \boldsymbol{\beta}} = (y_i -  \pi(\boldsymbol{x}_i; \boldsymbol{\beta}) ) \boldsymbol{x}_i.
∂β∂li​(β)​=(yi​−π(xi​;β))xi​.従って、以下が成り立つ：
∂l(β)∂β=∑i=1n(yi−π(xi;β))xi.
\frac{\partial l(\boldsymbol{\beta})}{\partial \boldsymbol{\beta}} = \sum_{i=1}^n(y_i -  \pi(\boldsymbol{x}_i; \boldsymbol{\beta}) ) \boldsymbol{x}_i.
∂β∂l(β)​=i=1∑n​(yi​−π(xi​;β))xi​.EY[∂l(β)∂β∂l(β)∂β⊤|X;β]=∑i=1nVY[yi∣xi;β]xixi⊤=∑i=1nπ(xi;β)(1−π(xi;β))xixi⊤
\begin{aligned}
E_Y\left[\frac{\partial l(\boldsymbol{\beta})}{\partial \boldsymbol{\beta}}\frac{\partial l(\boldsymbol{\beta})}{\partial \boldsymbol{\beta}^\top}\middle\vert \boldsymbol{X}; \boldsymbol{\beta}\right]
&= \sum_{i=1}^n V_Y[y_i\vert \boldsymbol{x}_i; \boldsymbol{\beta}] \boldsymbol{x}_i \boldsymbol{x}_i^\top\\
&= \sum_{i=1}^n\pi(\boldsymbol{x}_i; \boldsymbol{\beta}) (1 - \pi(\boldsymbol{x}_i; \boldsymbol{\beta})) \boldsymbol{x}_i \boldsymbol{x}_i^\top\\
\end{aligned}
EY​[∂β∂l(β)​∂β⊤∂l(β)​​X;β]​=i=1∑n​VY​[yi​∣xi​;β]xi​xi⊤​=i=1∑n​π(xi​;β)(1−π(xi​;β))xi​xi⊤​​
 最尤推定量を数値的に求める方法対数尤度 l(β)l(\boldsymbol{\beta})l(β) を最大にする β=β^\boldsymbol{\beta} = \hat{\boldsymbol{\beta}}β=β^​ を数値的に求めるには、以下の更新式に従って b(k+1)\boldsymbol{b}^{(k+1)}b(k+1) を計算していく：
b(k+1)=b(k)+M(b(k))−1∂l(β)∂β∣β=b(k)(1)
\begin{aligned}
    \boldsymbol{b}^{(k+1)} = \boldsymbol{b}^{(k)}+ \boldsymbol{M}(\boldsymbol{b}^{(k)})^{-1}\left. \frac{\partial l(\boldsymbol{\beta})}{\partial \boldsymbol{\beta}}\right|_{\boldsymbol{\beta} = \boldsymbol{b}^{(k)}} \tag{1}
\end{aligned}
b(k+1)=b(k)+M(b(k))−1∂β∂l(β)​​β=b(k)​​(1)ただし、
∂l(β)∂β∣β=b(k)=∑i=1n(yi−π(xi;b(k)))xi,M(b(k))=EY[∂l(β)∂β∂l(β)∂β⊤∣β=b(k)|X;b(k)]=∑i=1nπ(xi;b(k))(1−π(xi;b(k)))xixi⊤.
\begin{aligned}
\left. \frac{\partial l(\boldsymbol{\beta})}{\partial \boldsymbol{\beta}}\right|_{\boldsymbol{\beta} = \boldsymbol{b}^{(k)}} &= \sum_{i=1}^n(y_i -  \pi(\boldsymbol{x}_i; \boldsymbol{b}^{(k)}) ) \boldsymbol{x}_i,\\
\boldsymbol{M}(\boldsymbol{b}^{(k)}) &= \left.E_Y\left[\frac{\partial l(\boldsymbol{\beta})}{\partial \boldsymbol{\beta}}\frac{\partial l(\boldsymbol{\beta})}{\partial \boldsymbol{\beta}^\top}\right|_{\boldsymbol{\beta} = \boldsymbol{b}^{(k)}} \middle\vert \boldsymbol{X}; \boldsymbol{b}^{(k)}\right]\\
&=\sum_{i=1}^n\pi(\boldsymbol{x}_i; \boldsymbol{b}^{(k)}) (1 - \pi(\boldsymbol{x}_i; \boldsymbol{b}^{(k)})) \boldsymbol{x}_i \boldsymbol{x}_i^\top.
\end{aligned}
∂β∂l(β)​​β=b(k)​M(b(k))​=i=1∑n​(yi​−π(xi​;b(k)))xi​,=EY​[∂β∂l(β)​∂β⊤∂l(β)​​β=b(k)​​X;b(k)]=i=1∑n​π(xi​;b(k))(1−π(xi​;b(k)))xi​xi⊤​.​
 式(1)の別表現https://zenn.dev/link/comments/9e95d9b4d45073
πi(k)=π(xi;b(k))\pi_i^{(k)} = \pi(\boldsymbol{x}_i; \boldsymbol{b}^{(k)})πi(k)​=π(xi​;b(k)) と表して以下のような W(k), Π(k),z(k)\boldsymbol{W}^{(k)}, \, \boldsymbol{\Pi}^{(k)}, \boldsymbol{z}^{(k)}W(k),Π(k),z(k) を定義する：
Wij(k)={πi(k)(1−πi(k))(i=j)0(i≠j)
W_{ij}^{(k)} =
\begin{cases}
\pi_i^{(k)} \left(1 - \pi_i^{(k)} \right) &\quad (i = j)\\
0 &\quad (i \ne j)
\end{cases}
Wij(k)​={πi(k)​(1−πi(k)​)0​(i=j)(i=j)​Π(k)=(π1(k),π2(k),...,πn(k))⊤
\boldsymbol{\Pi}^{(k)} = \left( \pi_1^{(k)}, \pi_2^{(k)}, ..., \pi_n^{(k)}\right)^\top
Π(k)=(π1(k)​,π2(k)​,...,πn(k)​)⊤z(k)=(W(k))−1(Y−Π(k))+Xb(k)
\boldsymbol{z}^{(k)} = \left(\boldsymbol{W}^{(k)}\right)^{-1} (\boldsymbol{Y} - \boldsymbol{\Pi}^{(k)}) + \boldsymbol{X}\boldsymbol{b}^{(k)}
z(k)=(W(k))−1(Y−Π(k))+Xb(k)すると、式(\ref{1}) は以下のように書き表すことができる：
b(k+1)=(X⊤W(k)X)−1X⊤W(k)z(k)(2)
\boldsymbol{b}^{(k+1)} = \left(\boldsymbol{X}^\top \boldsymbol{W}^{(k)}\boldsymbol{X}\right)^{-1} \boldsymbol{X}^\top \boldsymbol{W}^{(k)}\boldsymbol{z}^{(k)} \tag{2}
b(k+1)=(X⊤W(k)X)−1X⊤W(k)z(k)(2)導出∂l(β)∂β∣β=b(k)=∑i=1n(yi−πi(k))xi=X⊤(Y−Π(k))
\begin{aligned}
\left. \frac{\partial l(\boldsymbol{\beta})}{\partial \boldsymbol{\beta}}\right|_{\boldsymbol{\beta} = \boldsymbol{b}^{(k)}} &= \sum_{i=1}^n (y_i - \pi_i^{(k)}) \boldsymbol{x}_i\\
&= \boldsymbol{X}^\top \left(\boldsymbol{Y} - \boldsymbol{\Pi}^{(k)}\right)
\end{aligned}
∂β∂l(β)​​β=b(k)​​=i=1∑n​(yi​−πi(k)​)xi​=X⊤(Y−Π(k))​M(b(k))=∑i=1nπi(k)(1−πi(k))xixi⊤=X⊤W(k)X
\begin{aligned}
\boldsymbol{M}(\boldsymbol{b}^{(k)})
&=\sum_{i=1}^n\pi_i^{(k)} (1 - \pi_i^{(k)}) \boldsymbol{x}_i \boldsymbol{x}_i^\top\\
&= \boldsymbol{X}^\top \boldsymbol{W}^{(k)} \boldsymbol{X}
\end{aligned}
M(b(k))​=i=1∑n​πi(k)​(1−πi(k)​)xi​xi⊤​=X⊤W(k)X​よって、式(1) は以下のように書き換えられる：
b(k+1)=b(k)+M(b(k))−1∂l(β)∂β∣β=b(k)=b(k)+(X⊤W(k)X)−1X⊤(Y−Π(k))=(X⊤W(k)X)−1X⊤W(k)Xb(k)+(X⊤W(k)X)−1X⊤W(k)(W(k))−1(Y−Π(k))=(X⊤W(k)X)−1X⊤W(k){(W(k))−1(Y−Π(k))+Xb(k)}=(X⊤W(k)X)−1X⊤W(k)z(k)
\begin{aligned}
    \boldsymbol{b}^{(k+1)} &= \boldsymbol{b}^{(k)}+ \boldsymbol{M}(\boldsymbol{b}^{(k)})^{-1}\left. \frac{\partial l(\boldsymbol{\beta})}{\partial \boldsymbol{\beta}}\right|_{\boldsymbol{\beta} = \boldsymbol{b}^{(k)}}\\
    &= \boldsymbol{b}^{(k)} + \left(\boldsymbol{X}^\top \boldsymbol{W}^{(k)}\boldsymbol{X}\right)^{-1} \boldsymbol{X}^\top \left(\boldsymbol{Y} - \boldsymbol{\Pi}^{(k)}\right)\\
    &= \left(\boldsymbol{X}^\top \boldsymbol{W}^{(k)}\boldsymbol{X}\right)^{-1} \boldsymbol{X}^\top \boldsymbol{W}^{(k)} \boldsymbol{X} \boldsymbol{b}^{(k)} + \left(\boldsymbol{X}^\top \boldsymbol{W}^{(k)}\boldsymbol{X}\right)^{-1} \boldsymbol{X}^\top \boldsymbol{W}^{(k)}\left(\boldsymbol{W}^{(k)}\right)^{-1} \left(\boldsymbol{Y} - \boldsymbol{\Pi}^{(k)}\right)\\
    &= \left(\boldsymbol{X}^\top \boldsymbol{W}^{(k)}\boldsymbol{X}\right)^{-1} \boldsymbol{X}^\top \boldsymbol{W}^{(k)} \left\{ \left(\boldsymbol{W}^{(k)}\right)^{-1} \left(\boldsymbol{Y} - \boldsymbol{\Pi}^{(k)}\right) + \boldsymbol{X}\boldsymbol{b}^{(k)}\right\}\\
    &= \left(\boldsymbol{X}^\top \boldsymbol{W}^{(k)}\boldsymbol{X}\right)^{-1} \boldsymbol{X}^\top \boldsymbol{W}^{(k)}\boldsymbol{z}^{(k)}
\end{aligned}
b(k+1)​=b(k)+M(b(k))−1∂β∂l(β)​​β=b(k)​=b(k)+(X⊤W(k)X)−1X⊤(Y−Π(k))=(X⊤W(k)X)−1X⊤W(k)Xb(k)+(X⊤W(k)X)−1X⊤W(k)(W(k))−1(Y−Π(k))=(X⊤W(k)X)−1X⊤W(k){(W(k))−1(Y−Π(k))+Xb(k)}=(X⊤W(k)X)−1X⊤W(k)z(k)​
なお、式(2)は z(k)\boldsymbol{z}^{(k)}z(k) を目的変数、X\boldsymbol{X}X を説明変数として W\boldsymbol{W}W でサンプルに重みをつけた重み付き最小二乗法による係数推定として捉えることもできる。

ログインするとコメントできます