回帰モデルの基本である線形回帰モデルを導入する。
線形回帰モデルとは

線形回帰の例。多項式関数の重みパラメータをデータに基づいて推定し、関数を予測している。
線形回帰モデルとは、回帰モデルのうち、出力が入力とパラメータの線形結合に依存することを仮定したモデルである。
・・・と言われてもよくわからない。そこで、いちから順に数式を追いながら確認していく。
あるパラメータ w に基づいてデータが生成されるモデルを考える。このようなモデルは、確率分布 p(y | w) から確率変数 y がサンプリングされる過程としてモデリングされる。
\begin{aligned}
y \sim p(y | w)
\end{aligned}
このモデルのうち、特にパラメータが x と w に分かれているようなものを回帰モデルという。このとき、x を 入力、y を 出力、w を パラメータ と呼ぶ。
\begin{aligned}
y \sim p(y | x, w)
\end{aligned}
回帰モデルのうち、縦棒の右側が入力の各要素 x_1, x_2, \dots, x_D とパラメータ w_1, w_2, \dots, w_D の線形結合 \bm x^\mathsf{T} \bm w = \sum_{d=1}^D x_d w_d で表されるようなものを線形回帰モデルという。
\begin{aligned}
y \sim p(y | \bm x^\mathsf{T} \bm w)
\end{aligned}
記号の取り扱い
通常、確率分布と確率密度関数は分けて表現される。一般的には
- 確率変数 y が正規分布に従うことを y \sim \mathcal N(\mu, \sigma^2) と表し、
- 確率密度関数を p(y | \mu, \sigma) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp \left( - \frac{1}{2\sigma^2} (y - \mu)^2 \right) と表す
ことが多い。
しかしこの記事ではどの記号が正規分布に従うかを明確にするために、「y は正規分布に従う」ということを
\begin{aligned}
y \sim \mathcal N(y | \mu, \sigma^2)
\end{aligned}
と表すことにする。さらに同じ表記で「y を正規分布 \mathcal N(y | \mu, \sigma^2) からサンプリングする」という操作も表現する。
\begin{aligned}
y \sim \mathcal N(y | \mu, \sigma^2)
\end{aligned}
どちらの意味であるかは文脈による。
また、この記事では、次のように確率分布の記号を用いて確率密度関数を表現することにする。
\begin{aligned}
p(y | \mu, \sigma)
={}& \mathcal N(y | \mu, \sigma^2) \\
={}& \frac{1}{\sqrt{2\pi\sigma^2}} \exp \left( - \frac{1}{2\sigma^2} (y - \mu)^2 \right)
\end{aligned}
さらに、p(\cdot|\cdot) の縦棒の右側のうち、議論に関係ないものは適宜省略する。ただし \mathcal N(\cdot|\cdot) など特定の形の確率密度関数を表すのに必要な場合には省略しない。
\begin{aligned}
p(y) ={}& \mathcal N(y | \mu, \sigma^2)
\end{aligned}
正規分布と多変量正規分布

(a) 正規分布の確率密度関数。(b) 2変量正規分布に従う乱数 \bm x を1000個スキャッタープロット。
正規分布
上図(a)に示したような分布を 正規分布 (normal distribution) という。正規分布の確率密度関数は次式で与えられる。
\begin{aligned}
\mathcal N(x | \mu, \sigma^2)
={}& \frac{1}{\sqrt{2\pi\sigma^2}} \exp \left( - \frac{1}{2\sigma^2} (x - \mu)^2 \right) \\
\propto{}& \exp \left( - \frac{1}{2\sigma^2} (x - \mu)^2 \right)
\end{aligned}
ここで \mu は期待値、\sigma^2 は分散と呼ばれる母数である。
多変量正規分布 (2変量)
また、上図(b)に示した分布は、この正規分布を2次元ベクトル \bm x\in\R^2 に拡張したものであり、多変量正規分布 (multivariate normal distribution) と呼ばれる。確率密度関数は次式で与えられる。
\begin{aligned}
\mathcal N_2 \left(\bm x \middle| \bm m, \bm V \right)
={}& \frac{1}{\sqrt{\det(2\pi \bm V)}} \exp \left( - \frac{1}{2} (\bm x - \bm m)^\mathsf{T} \bm V^{-1} (\bm x - \bm m) \right) \\
\propto{}& \exp \left( - \frac{1}{2} (\bm x - \bm m)^\mathsf{T} \bm V^{-1} (\bm x - \bm m) \right)
\end{aligned}
ここで \bm m \in \R^2 は期待値ベクトル、\bm V \in \R^{2 \times 2} は共分散行列と呼ばれる母数である。
多変量正規分布 (D変量)
より一般に、この多変量正規分布は D 次元ベクトルに対しても同じ形で書くことができる。
\begin{aligned}
\mathcal N_D \left(\bm x \middle| \bm m, \bm V \right)
={}& \frac{1}{\sqrt{\det(2\pi \bm V)}} \exp \left( - \frac{1}{2} (\bm x - \bm m)^\mathsf{T} \bm V^{-1} (\bm x - \bm m) \right) \\
={}& \exp \left( - \frac{1}{2} (\bm x - \bm m)^\mathsf{T} \bm V^{-1} (\bm x - \bm m) \right)
\end{aligned}
ここで \bm x\in\R^D, \bm m \in \R^D, \bm V \in \R^{D \times D} である。
共分散行列 \bm V の (i,j) 成分 V_{ij} は、\bm x の第 i 成分と第 j 成分の共分散を表す。また対角成分 V_{ii} は \bm x の第 i 成分の分散を表す。
正規分布に従う線形回帰モデル
以上の正規分布を用いた線形回帰モデルを考える。入力と出力をまとめたデータセット
\mathcal D_D = \{(\bm x_d, y_d)\}_{d=1}^D = \{
(\bm x_1, y_1),
(\bm x_2, y_2),
\cdots,
(\bm x_D, y_D)
\}
に含まれる \bm x_d \in \R^N と y_d \in \R の関係が、
\begin{aligned}
y_d \sim \mathcal N(y_d | \bm x_d^\mathsf{T} \bm w, \sigma^2)
\end{aligned}
によって与えられていると仮定する。このことは、
\begin{aligned}
p(y_d | \bm x_d, \bm w) = \mathcal N(y_d | \bm x_d^\mathsf{T} \bm w, \sigma^2)
\end{aligned}
と表現することもできる。この p(y_d | \bm x_d, \bm w) を、パラメータ \bm w の 尤度関数 (likelihood function) という。
尤度関数が \mathcal N(y_d | \bm x_d^\mathsf{T} \bm w, \sigma^2) で与えられるという仮定は、入力 \bm x_d と出力 y_d の関係を
\begin{aligned}
&& y &= \bm x^\mathsf{T} \bm w + \varepsilon \\
&\text{where}& \varepsilon &\sim \mathcal N(0, \sigma^2)
\end{aligned}
と仮定したことと等価である。\varepsilon は残差と呼ばれる変数であり、上記の仮定は、残差が分散 \sigma^2 の正規分布に従うという仮定であると解釈できる。
まとめて表現する
データセット \mathcal D_D を得る際の各回の試行 y_d \sim p(y_d | \bm x_d, \bm w) が独立であると仮定する。すなわち、(\bm x_d, y_d) の組の内容は、それ以外の組 (\bm x_i, y_i) に一切影響を及ぼさないとする。すると、D 回の操作は、D 個の確率分布の積からのサンプリングとしてモデリングできる。
\begin{aligned}
&&
y_1, y_2, \dots, y_D \sim{}& p(y_1 | \bm x_1, \bm w) p(y_2 | \bm x_2, \bm w) \dots p(y_D | \bm x_D, \bm w) \\
&\text{i.e.}&
y_1, y_2, \dots, y_D \sim{}& \prod_{d=1}^D p(y_d | \bm x_d, \bm w)
\end{aligned}
すなわち、D 個の入出力データに対するパラメータ \bm w の尤度関数の積を
\begin{aligned}
p(y_1, y_2, \dots, y_D | \bm x_1, \bm x_2, \dots, \bm x_D, \bm w) ={}& \prod_{d=1}^D p(y_d | \bm x_d, \bm w)
\end{aligned}
と表現することができる。ここで、D 個の入出力の組を
\begin{aligned}
\bm y
&\coloneqq
\begin{bmatrix}
y_1 \\ y_2 \\ \vdots \\ y_D
\end{bmatrix}
&& \in \mathbb R^D
\\
\bm X
&\coloneqq
\begin{bmatrix}
\bm x_1^\mathsf{T} \\
\bm x_2^\mathsf{T} \\
\vdots \\
\bm x_D^\mathsf{T}
\end{bmatrix} =
\begin{bmatrix}
x_{11} & x_{12} & \cdots & x_{1N} \\
x_{21} & x_{22} & \cdots & x_{2N} \\
\vdots & \vdots & \ddots & \vdots \\
x_{D1} & x_{D2} & \cdots & x_{DN} \\
\end{bmatrix}
&& \in \mathbb R^{D \times N}
\end{aligned}
とまとめると、尤度関数の積は次のように書き表すことができる。
\begin{aligned}
p(\bm y | \bm X, \bm w)
={}&
\prod_{d=1}^D p(y_d | \bm x_d, \bm w) \\
={}&
\prod_{d=1}^D \mathcal N (y_d | \bm x_d^\mathsf{T} \bm w, \sigma^2) \\
\propto{}&
\prod_{d=1}^D \exp \left(
- \frac{1}{2\sigma^2} \left(y_d - \bm x_d^\mathsf{T} \bm w \right)^2
\right) \\
={}&
\exp \left(
- \frac{1}{2\sigma^2} \sum_{d=1}^D \left(y_d - \bm x_d^\mathsf{T} \bm w \right)^2
\right) \\
={}&
\exp \left(
- \frac{1}{2\sigma^2} \left\| \bm y - \bm X \bm w \right\|_2^2
\right) \\
\propto{}&
\mathcal N_D(\bm y | \bm X \bm w, \sigma^2 \bm I_D)
\end{aligned}
すなわち
\begin{aligned}
p(\bm y | \bm X, \bm w) = \mathcal N_D(\bm y | \bm X \bm w, \sigma^2 \bm I_D)
\end{aligned}
である。こうして得られた \bm y が従うと仮定した分布の確率密度関数 p(\bm y | \bm X, \bm w) もまた、\bm w の 尤度関数 (likelihood function) と呼ばれる。
まとめ
- 回帰モデル: x を入力、y を出力、w をパラメータとし、w を推定
- 線形回帰モデル: 出力が入力とパラメータの線形結合に依存する回帰モデル
-
\bm w の尤度関数: 出力 y が従う確率分布の確率密度関数で、パラメータとして \bm w が含まれるもの
- 正規分布を用いた線形回帰モデルでは、尤度関数が正規分布の確率密度関数であると仮定
Discussion