一方、説明変数間に完全な多重共線性があるような場合では計画行列 $\boldsymbol{X}$ が full-rank でなくなるため、行列 $\boldsymbol{X}^\top \boldsymbol{X} \in \mathbb{R}^{p \times p}$ が full-rank にならず逆行列を持たなくなり、式(2)の形で推定量を表すことができない。
また、 $\boldsymbol{X}$ が full-rank でも $n<p$ つまり説明変数の数よりサンプルサイズが小さい場合についても同様のことが言える。

しかし、Moore-Penrose の逆行列をはじめとした一般化逆行列を用いることで、 $\boldsymbol{X}^\top \boldsymbol{X}$ が逆行列を持たないような場合でも推定量を記述できる。

本投稿では、Moore-Penrose の逆行列を用いた最小二乗推定量について紹介する。

概要（ダイジェスト）

式(1) で表される線形回帰モデルにおける係数 $\boldsymbol{\beta}$ の最小二乗推定量 $\hat{\boldsymbol{\beta}}$ は以下の形で表される：

\hat{\boldsymbol{\beta}} = \boldsymbol{X}^+ \boldsymbol{Y} + (\boldsymbol{I}_p - \boldsymbol{X}^+ \boldsymbol{X}) \boldsymbol{w} \tag{3}

ここで、 $\boldsymbol{X}^+$ は $\boldsymbol{X}$ の Moore-Penrose 逆行列、 $\boldsymbol{w} \in \mathbb{R}^{p \times 1}$ は任意のベクトル、 $\boldsymbol{I}_p$ は $p \times p$ の単位行列である。

式(3)は、行列 $\boldsymbol{X}^\top \boldsymbol{X}$ が逆行列を持つ時には式(2) に一致することに加え、 ${\rm rank} \, \boldsymbol{X} < p$ で $\boldsymbol{X}^\top \boldsymbol{X}$ が逆行列を持たず係数が一通りに定まらない場合にも取りうる全ての係数を表現できる。

なお、式(3) で $\boldsymbol{w} = \boldsymbol{0}$ としたときの $\hat{\boldsymbol{\beta}}_0 = \boldsymbol{X}^+ \boldsymbol{Y}$ は、無数に存在する係数推定量の中で大きさ $|| \hat{\boldsymbol{\beta}} ||$ が最小になるものを表している。

加えて、 $\hat{\boldsymbol{\beta}}_0$ は Ridge 回帰による推定量の極限 $\lim_{\alpha \to 0} \hat{\boldsymbol{\beta}}_\alpha = \hat{\boldsymbol{\beta}}_0$ と一致する。

式(3) の推定量が正規方程式の解になっていることの確認

そもそも式(2)の推定量は、残差平方和を最小化する際に正規方程式

\boldsymbol{X}^\top \boldsymbol{X} \hat{\boldsymbol{\beta}} = \boldsymbol{X}^\top \boldsymbol{Y} \tag{4}

の解として得られた。

ここでは証明とは別に、式(3) で表した推定量が正規方程式の解になっていることを示す。
（逆に正規方程式(4)の解ならば全て式(3) の形に書き表せることの証明はここでは行わない。）

式(4)の左辺に式(3)を代入する：

\boldsymbol{X}^\top \boldsymbol{X} \hat{\boldsymbol{\beta}} = \boldsymbol{X}^\top \boldsymbol{X} \boldsymbol{X}^+ \boldsymbol{Y} + \boldsymbol{X}^\top \boldsymbol{X} (\boldsymbol{I}_p - \boldsymbol{X}^+ \boldsymbol{X}) \boldsymbol{w}

この右辺第1項は、

\begin{aligned} \boldsymbol{X}^\top \boldsymbol{X} \boldsymbol{X}^+ \boldsymbol{Y} &= \boldsymbol{X}^\top (\boldsymbol{X} \boldsymbol{X}^+)^\top \boldsymbol{Y} \qquad (\because (\boldsymbol{X} \boldsymbol{X}^+)^\top = \boldsymbol{X} \boldsymbol{X}^+)\\ &= \{ (\boldsymbol{X} \boldsymbol{X}^+) \boldsymbol{X}\}^\top \boldsymbol{Y}\\ &= \boldsymbol{X}^\top \boldsymbol{Y} \qquad (\because \boldsymbol{X}\boldsymbol{X}^+ \boldsymbol{X} = \boldsymbol{X}) \end{aligned}

右辺第2項は

\begin{aligned} \boldsymbol{X}^\top \boldsymbol{X} (\boldsymbol{I}_p - \boldsymbol{X}^+ \boldsymbol{X}) \boldsymbol{w} &= \boldsymbol{X}^\top ( \boldsymbol{X} - \boldsymbol{X}\boldsymbol{X}^+ \boldsymbol{X}) \boldsymbol{w}\\ &= \boldsymbol{X}^\top ( \boldsymbol{X} - \boldsymbol{X}) \boldsymbol{w} \qquad (\because \boldsymbol{X}\boldsymbol{X}^+ \boldsymbol{X} = \boldsymbol{X})\\ &= \boldsymbol{0} \end{aligned}

となることから、確かに式(4) が成立していることがわかる。

式(3) で表した推定量の解釈

式(3)で表した推定量は、逆行列 $(\boldsymbol{X}^\top \boldsymbol{X})^{-1}$ が存在する場合は式(2)と一致するが、そうでない場合でも無数に取りうる係数の組み合わせを全て記述することができる。

このことについて詳しく見ていく。

逆行列 $(\boldsymbol{X}^\top \boldsymbol{X})^{-1}$ が存在する場合

${\rm rank} \, \boldsymbol{X} = p$ であり $p \times p$ 行列 $\boldsymbol{X}^\top \boldsymbol{X}$ が非特異で逆行列を持つ場合、式(3) の Moore-Penrose 逆行列を用いた推定量は式(1) で表した推定量と一致する。

実際このとき、

\boldsymbol{X}^+ = (\boldsymbol{X}^\top \boldsymbol{X})^{-1} \boldsymbol{X}^T

になる^[1]ため、

(\boldsymbol{I}_p - \boldsymbol{X}^+ \boldsymbol{X}) \boldsymbol{w} = ( \boldsymbol{I}_p - \boldsymbol{I}_p)\boldsymbol{w} = \boldsymbol{0}

もあわせると

\begin{aligned} \hat{\boldsymbol{\beta}} &= \boldsymbol{X}^+ \boldsymbol{Y} + (\boldsymbol{I}_p - \boldsymbol{X}^+ \boldsymbol{X}) \boldsymbol{w}\\ &=(\boldsymbol{X}^\top \boldsymbol{X})^{-1} \boldsymbol{X}^\top \boldsymbol{Y} \end{aligned}

となる。

逆行列 $(\boldsymbol{X}^\top \boldsymbol{X})^{-1}$ が存在しない場合

${\rm rank} \, \boldsymbol{X} < p$ の場合、 $\boldsymbol{X}^\top \boldsymbol{X}$ が逆行列を持たないとはいっても、最小二乗法による推定量が求まらないわけではない。
推定量はきちんと求まるものの、同じ結果を与える係数が無数に存在するため一意に定まらないのである。

式(3) で表される推定量はベクトル $\boldsymbol{w}$ に任意性を持ち、これにより無数に存在する係数推定量の全てを表現することができる。

このことを理解しやすくするために、具体的な例をひとつ見てみる。

\boldsymbol{X} = \begin{pmatrix} x_{11} & x_{21}\\ x_{12} & x_{22}\\ x_{13} & x_{23} \end{pmatrix} = \begin{pmatrix} 1 & 2\\ 2 & 4\\ 3 & 6 \end{pmatrix} \qquad \boldsymbol{Y} = \begin{pmatrix} y_1\\ y_2\\ y_3 \end{pmatrix}= \begin{pmatrix} 3\\ 6\\ 9 \end{pmatrix}

この時、 $x_{2i} =2 x_{1i}$ という関係がある（完全な多重共線性）ため、 ${\rm rank} \, \boldsymbol{X} = 1$ より行列 $\boldsymbol{X}^\top \boldsymbol{X}$ は逆行列を持たない。
上記の例は $\boldsymbol{\beta}^\top = (\beta_1, \beta_2) = (1, 1), \quad \sigma^2=0$ として $x_{1i} + x_{2i} = y_i$ となるように作ったが、

\begin{aligned} y_i &= x_{1i} + x_{2i}\\ &= 3 x_{1i}\\ &= \frac{3}{2} x_{2i} \end{aligned}

からわかるように、 $(\beta_1, \beta_2) = (3, 0)$ や $(\beta_1, \beta_2) = (0, 3/2)$ も同じ $y_i$ の値を与える。このように、係数が一通りに定まらない。

この時の式(3) の推定量を求めてみる。
詳細な計算は省くが

\boldsymbol{X}^+ = \frac{1}{70} \begin{pmatrix} 1 & 2 & 3\\ 2 & 4 & 6 \end{pmatrix} \qquad \boldsymbol{X}^+\boldsymbol{X} = \frac{1}{5} \begin{pmatrix} 1 & 2\\ 2 & 4 \end{pmatrix}

となることから、

\begin{aligned} \begin{pmatrix} \hat{\beta}_1\\ \hat{\beta}_2 \end{pmatrix} &= \boldsymbol{X}^+ \boldsymbol{Y} + (\boldsymbol{I}_2 - \boldsymbol{X}^+\boldsymbol{X}) \boldsymbol{w}\\ &= \frac{3}{5} \begin{pmatrix} 1\\ 2 \end{pmatrix} + \frac{1}{5} \begin{pmatrix} 4 & -2\\ -2 & 1 \end{pmatrix} \begin{pmatrix} w_1\\ w_2 \end{pmatrix}\\ &=\frac{3}{5} \begin{pmatrix} 1\\ 2 \end{pmatrix} + \frac{2w_1 - w_2}{5} \begin{pmatrix} 2\\ -1 \end{pmatrix} \end{aligned}

が得られる。
従って、 $\alpha = (2w_1 - w_2)/5$ と置くと、

\hat{\beta}_1 = \frac{3}{5} + 2\alpha, \qquad \hat{\beta}_2 = \frac{6}{5} - \alpha

であることがわかる。
これは、 $\alpha=1/5$ とすると $(\hat{\beta}_1, \hat{\beta}_2) = (1, 1)$ に、 $\alpha = 6/5$ ならば $(\hat{\beta}_1, \hat{\beta}_2) = (3, 0)$ 、 $\alpha = -3/10$ ならば $(\hat{\beta}_1, \hat{\beta}_2) = (0, 3/2)$ になることから分かるように先ほど例示した3つの係数 $(\beta_1, \beta_2)$ の組み合わせを含んでいる。

さらに $\alpha$ を消去してやることで、 $\hat{\beta}_1 + 2\hat{\beta}_2 = 3$ の関係が成り立つ $(\hat{\beta}_1,\hat{\beta}_2)$ の組み合わせであれば常に同じ予測値 $\boldsymbol{X}\hat{\boldsymbol{\beta}}$ を与えることがわかる。

このように、式(3)の形で推定量を表すことで、同値な結果を与える推定量を全て表現することができる。

$\boldsymbol{w} = \boldsymbol{0}$ における推定量 $\hat{\boldsymbol{\beta}}_0$ の意味

式(3)で $\boldsymbol{w} = \boldsymbol{0}$ としたときの推定量を $\hat{\boldsymbol{\beta}}_0$ と置くと、

\hat{\boldsymbol{\beta}}_0 = \boldsymbol{X}^+ \boldsymbol{Y}

のように表される。
これは、式(3)の形で表した推定量 $\hat{\boldsymbol{\beta}}$ の中で大きさが最小のものを表している。

具体例による図示

このことを前節の例で見てみる。

先ほどの例では、同一の予測値を与える係数全体は $\hat{\beta}_1 + 2\hat{\beta}_2 = 3$ で表すことができた。これに対して、 $\boldsymbol{w}=\boldsymbol{0}$ に対応する係数は $\hat{\beta}_1=3/5, \, \hat{\beta}_2 = 6/5$ である。

これらの関係を図に表してみる。

上記の図のように、同一の予測値を与える係数の値全体は、 $(\beta_1, \beta_2)$ の空間では $(0,3/2), (3, 0)$ を通る傾き $-1/2$ の直線で表される。
これに対して、 $\boldsymbol{w}=\boldsymbol{0}$ に対応する値 $(\beta_1, \beta_2) = (3/5, 6/5)$ は、原点 $(0,0)$ から $\beta_1 + 2\beta_2 = 3$ の直線に向けて垂直に引いた直線との交点に位置している。
従って、 $\hat{\boldsymbol{\beta}}_0 = (3/5, 6/5)^\top$ は取りうる係数の中では最小であることがわかる。

$\hat{\boldsymbol{\beta}}$ の大きさがが $\boldsymbol{w} = \boldsymbol{0}$ で最小になることの証明

以下では一般に $\hat{\boldsymbol{\beta}}_0$ が $\hat{\boldsymbol{\beta}}$ の中で大きさが最小であることを示す。

まず、式(3) の第1項 $\boldsymbol{X}^+ \boldsymbol{Y}$ と第2項 $(\boldsymbol{I}_p - \boldsymbol{X}^+\boldsymbol{X}) \boldsymbol{w}$ が直交していることに着目する：^[2]

(\boldsymbol{X}^+ \boldsymbol{Y})^\top \left\{ (\boldsymbol{I}_p - \boldsymbol{X}^+\boldsymbol{X}) \boldsymbol{w} \right\} = 0.

なぜこれが言えるかというと、

\begin{aligned} (\boldsymbol{X}^+ \boldsymbol{Y})^\top \left\{ (\boldsymbol{I}_p - \boldsymbol{X}^+\boldsymbol{X}) \boldsymbol{w} \right\} &= \boldsymbol{Y}^\top \left\{ (\boldsymbol{X}^+)^\top - (\boldsymbol{X}^+)^\top \boldsymbol{X}^+ \boldsymbol{X} \right\} \boldsymbol{w} \end{aligned}

かつ

\begin{aligned} (\boldsymbol{X}^+)^\top \boldsymbol{X}^+ \boldsymbol{X} &= \{ (\boldsymbol{X}^+ \boldsymbol{X})^\top \boldsymbol{X}^+ \}^\top\\ &= (\boldsymbol{X}^+ \boldsymbol{X} \boldsymbol{X}^+)^\top \qquad \because (\boldsymbol{X}^+ \boldsymbol{X})^\top = \boldsymbol{X}^+ \boldsymbol{X}\\ &= (\boldsymbol{X}^+)^\top \end{aligned}

だからである。

これを用いると、

\begin{aligned} ||\hat{\boldsymbol{\beta}}||^2 &= ||\boldsymbol{X}^+ \boldsymbol{Y} + (\boldsymbol{I}_p - \boldsymbol{X}^+\boldsymbol{X}) \boldsymbol{w} ||^2\\ &= || \boldsymbol{X}^+ \boldsymbol{Y} ||^2 + || (\boldsymbol{I}_p - \boldsymbol{X}^+\boldsymbol{X}) \boldsymbol{w} ||^2 \end{aligned}

と表せることから、 $\boldsymbol{w} = \boldsymbol{0}$ のとき $||\hat{\boldsymbol{\beta}}||$ が最小になることがわかる。

Ridge 回帰による推定量の極限としての $\hat{\boldsymbol{\beta}}_0$

以下の投稿で解説した Ridge 回帰では、定数 $\alpha > 0$ を用いて推定量 $\hat{\boldsymbol{\beta}}_\alpha$ が以下のように得られた：

\hat{\boldsymbol{\beta}}_\alpha = (\boldsymbol{X}^\top \boldsymbol{X} + \alpha \boldsymbol{I}_p)^{-1} \boldsymbol{X}^\top \boldsymbol{Y}.

この推定量は $\alpha \to 0$ の極限で $\hat{\boldsymbol{\beta}}_0 = \boldsymbol{X}^+ \boldsymbol{Y}$ と一致する。

\lim_{\alpha \to 0} \hat{\boldsymbol{\beta}}_\alpha =\hat{\boldsymbol{\beta}}_0

このことは、下記の投稿で述べたように

\lim_{\alpha \to 0}(\boldsymbol{X}^\top \boldsymbol{X} + \alpha \boldsymbol{I}_p)^{-1} \boldsymbol{X}^\top = \boldsymbol{X}^+

という関係が成り立つことから分かる。

具体例による理解

ここでも先ほどと同じ例で Ridge 回帰による係数推定量を求めてみる。

細かい計算は省略するが、

\begin{pmatrix} \hat{\beta}_{\alpha, 1}\\ \hat{\beta}_{\alpha, 2} \end{pmatrix} = \frac{3}{5 + \alpha/14} \begin{pmatrix} 1\\ 2 \end{pmatrix}

のようになる。
これはたしかに、 $\alpha \to 0$ で先ほどの $\hat{\boldsymbol{\beta}}_0 = (3/5, 6/5)^\top$ と一致していることがわかる。

式(3) の推定量の導出

最後に、式(3) の形で最小二乗法による推定量が求まることを示す。

残差平方和を最小にする $\boldsymbol{\beta}$ を求める際に現れた正規方程式

\boldsymbol{X}^\top \boldsymbol{X} \hat{\boldsymbol{\beta}} = \boldsymbol{X}^\top \boldsymbol{Y} \tag{4}

の解として式(3)

\hat{\boldsymbol{\beta}} = \boldsymbol{X}^+ \boldsymbol{Y} + (\boldsymbol{I}_p - \boldsymbol{X}^+ \boldsymbol{X}) \boldsymbol{w} \tag{3}

が得られることを示すが、その前に線形連立方程式について成り立つ関係式について触れる。

線形連立方程式の解

連立方程式

\boldsymbol{A} \boldsymbol{z} = \boldsymbol{b}

に解が存在するとき、その解は Moore-Penrose 逆行列 $\boldsymbol{A}^+$ と任意のベクトル $\boldsymbol{w}$ を用いて以下のように表される。

\boldsymbol{z}^* = \boldsymbol{A}^+ \boldsymbol{b} + (\boldsymbol{I} - \boldsymbol{A}^+ \boldsymbol{A}) \boldsymbol{w}

なお、解が存在するための必要十分条件は、 $\boldsymbol{A}\boldsymbol{A}^+\boldsymbol{b} = \boldsymbol{b}$ が成り立つことである。

詳細は参考文献に挙げた Harville(2006) の第11章を参照。

正規方程式の解

上記の連立方程式の解の式に正規方程式(4)を当てはめると、 $\boldsymbol{A} = \boldsymbol{X}^\top \boldsymbol{X}, \, \boldsymbol{z} = \hat{\boldsymbol{\beta}}, \, \boldsymbol{b} = \boldsymbol{X}^\top \boldsymbol{Y}$ に対応するので、

\hat{\boldsymbol{\beta}} = (\boldsymbol{X}^\top \boldsymbol{X})^+ \boldsymbol{X}^\top \boldsymbol{Y} + \{ \boldsymbol{I}_p - (\boldsymbol{X}^\top \boldsymbol{X})^+ (\boldsymbol{X}^\top \boldsymbol{X}) \} \boldsymbol{w}

のようになる。
ここで、

(\boldsymbol{X}^\top \boldsymbol{X})^+ \boldsymbol{X}^\top = \boldsymbol{X}^+ \tag{5}

(\boldsymbol{X}^\top \boldsymbol{X})^+ (\boldsymbol{X}^\top \boldsymbol{X}) = \boldsymbol{X}^+ \boldsymbol{X} \tag{6}

が成り立つことから、式(3) が正規方程式の解となることがわかる。

なお、解が存在する必要十分条件は $(\boldsymbol{X}^\top \boldsymbol{X}) (\boldsymbol{X}^\top \boldsymbol{X})^+ \boldsymbol{X}^\top \boldsymbol{Y} = \boldsymbol{X}^\top \boldsymbol{Y}$ であるが、これは $(\boldsymbol{X}^\top \boldsymbol{X}) (\boldsymbol{X}^\top \boldsymbol{X})^+ \boldsymbol{X}^\top = \boldsymbol{X}^\top$ であることから常に成り立つ。

式(5), (6)をそれぞれ示すと、

式(5)の証明

(\boldsymbol{X}^\top \boldsymbol{X})^+ = \boldsymbol{X}^+ (\boldsymbol{X}^\top)^+ \tag{7}

が成り立つことから、

\begin{aligned} (\boldsymbol{X}^\top \boldsymbol{X})^+ \boldsymbol{X}^\top &= \boldsymbol{X}^+ (\boldsymbol{X}^\top)^+ \boldsymbol{X}^\top\\ &= \boldsymbol{X}^+ (\boldsymbol{X} \boldsymbol{X}^+ )^\top \qquad \because (\boldsymbol{X}^\top)^+ = (\boldsymbol{X}^+)^\top \\ &= \boldsymbol{X}^+ \boldsymbol{X} \boldsymbol{X}^+ \qquad \because (\boldsymbol{X} \boldsymbol{X}^+ )^\top = \boldsymbol{X} \boldsymbol{X}^+\\ &= \boldsymbol{X}^+ \end{aligned}

が成り立つ。
式(7)については、Moore-Penrose 逆行列の定義に立ち返り以下の4つの関係が成り立つことを示せばよい（省略）^[3]：

$(\boldsymbol{X}\boldsymbol{X}^\top) \boldsymbol{X}^+ (\boldsymbol{X}^\top)^+ (\boldsymbol{X}\boldsymbol{X}^\top) = (\boldsymbol{X}\boldsymbol{X}^\top)$
$\boldsymbol{X}^+ (\boldsymbol{X}^\top)^+ (\boldsymbol{X}\boldsymbol{X}^\top) \boldsymbol{X}^+ (\boldsymbol{X}^\top)^+ = \boldsymbol{X}^+ (\boldsymbol{X}^\top)^+$
$\{ (\boldsymbol{X}\boldsymbol{X}^\top) \boldsymbol{X}^+ (\boldsymbol{X}^\top)^+ \}^\top = (\boldsymbol{X}\boldsymbol{X}^\top) \boldsymbol{X}^+ (\boldsymbol{X}^\top)^+$
$\{ \boldsymbol{X}^+ (\boldsymbol{X}^\top)^+ (\boldsymbol{X}\boldsymbol{X}^\top) \}^\top = \boldsymbol{X}^+ (\boldsymbol{X}^\top)^+ (\boldsymbol{X}\boldsymbol{X}^\top)$

式(6)の証明
同様に式(7)の関係を用いて、

\begin{aligned} (\boldsymbol{X}^\top \boldsymbol{X})^+ (\boldsymbol{X}^\top \boldsymbol{X}) &= \boldsymbol{X}^+ (\boldsymbol{X}^\top)^+ \boldsymbol{X}^\top \boldsymbol{X}\\ &= \boldsymbol{X}^+ (\boldsymbol{X} \boldsymbol{X}^+)^\top \boldsymbol{X} \qquad \because (\boldsymbol{X}^\top)^+ = (\boldsymbol{X}^+)^\top\\ &= \boldsymbol{X}^+ \boldsymbol{X} \boldsymbol{X}^+ \boldsymbol{X} \qquad \because (\boldsymbol{X} \boldsymbol{X}^+)^\top = \boldsymbol{X} \boldsymbol{X}^+\\ &= \boldsymbol{X}^+ \boldsymbol{X} \qquad \because \boldsymbol{X} \boldsymbol{X}^+ \boldsymbol{X} = \boldsymbol{X} \end{aligned}

参考文献

D. A. Harville, Matrix Algebra From a Statistician's Perspective (2006, Springer)
- 日本語訳： D. A. ハーヴィル（伊理正夫監訳）、統計のための行列代数上・下（丸善、2012）

https://amzn.asia/d/eFLLrNg

https://amzn.asia/d/h5awcqR

https://amzn.asia/d/fRgKunk

脚注

https://zenn.dev/tatamiya/articles/13df806ad8af9aa457ce#1.-のとき ↩︎
$(\boldsymbol{I}_p - \boldsymbol{X}^+\boldsymbol{X})$ は $\boldsymbol{X}$ の核 ${\rm Ker} \, \boldsymbol{X} = \{\boldsymbol{z}; \boldsymbol{X} \boldsymbol{z} = \boldsymbol{0}\}$ への射影を表している。実際、 $\boldsymbol{X} (\boldsymbol{I}_p - \boldsymbol{X}^+\boldsymbol{X}) \boldsymbol{w} = \boldsymbol{0}$ であり、 $(\boldsymbol{I}_p - \boldsymbol{X}^+\boldsymbol{X}) \boldsymbol{w} \in {\rm Ker} \, \boldsymbol{X}$ がわかる。さらに、 $\boldsymbol{X}^+ \boldsymbol{Y}$ は $\boldsymbol{X}^+$ の列ベクトル空間 $\mathcal{C}(\boldsymbol{X}^+)$ に属し、かつ $\mathcal{C}(\boldsymbol{X}^+)$ の直交補空間 $\mathcal{C}(\boldsymbol{X}^+)^\perp$ が ${\rm Ker} \, \boldsymbol{X}$ と一致する。このことからも $\boldsymbol{X}^+ \boldsymbol{Y}$ と $(\boldsymbol{I}_p - \boldsymbol{X}^+\boldsymbol{X}) \boldsymbol{w}$ が直交することが理解できる。 ↩︎
なお、一般には $(AB)^+$ と $B^+ A^+$ は一致しない https://en.wikipedia.org/wiki/Moore–Penrose_inverse#Products ↩︎

はじめに