はじめに
色(例:赤・青・黄・...)や都道府県(例: 東京・北海道・愛媛・...)といった(順序のない)カテゴリー変数が1列のカラムとして与えられたデータを機械学習や統計モデルで扱う際に、One-Hotエンコーディングという手法を用いることがよくある。
これは、各カテゴリーを0/1のダミー変数に置き換えて横持ちにするもので、たとえば都道府県のカラムであれば以下のように処理する:
id
都道府県
1
東京
2
東京
3
北海道
4
愛媛
5
北海道
↓
id
東京
北海道
愛媛
1
1
0
0
2
1
0
0
3
0
1
0
4
0
0
1
5
0
1
0
本記事では、このようにカテゴリカルな変数をOne-Hotエンコーディングでダミー変数に置き換えたデータについて、重回帰分析を行った際の回帰係数が各カテゴリ内での目的変数のサンプル平均を用いて簡単な形で表せることを示す。
設定
カテゴリ数 K K K のカテゴリ変数を One-Hot エンコーディングしたダミー変数を、X 1 , X 2 , . . . , X K − 1 , X K X_1, X_2, ..., X_{K-1}, X_K X 1 , X 2 , ... , X K − 1 , X K と置く。
以下のように、目的変数 Y Y Y に対して説明変数 X 1 , X 2 , . . . , X K − 1 X_1, X_2, ..., X_{K-1} X 1 , X 2 , ... , X K − 1 を用いて線形回帰を行うことを考える:
Y = β 0 + β 1 X 1 + β 2 X 2 + . . . + β K − 1 X K − 1 + ε (1)
Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + ... + \beta_{K-1} X_{K-1} + \varepsilon \tag{1}
Y = β 0 + β 1 X 1 + β 2 X 2 + ... + β K − 1 X K − 1 + ε ( 1 )
ε \varepsilon ε は誤差項である。
なお、(完全な)多重共線性を避けるために K K K 番目のカテゴリについてのダミー変数 X K X_K X K は落としている。
推定量の求め方
n n n 個の観測値 { X 1 i , X 2 i , . . . , X K − 1 , i , Y i } i = 1 n \{X_{1i}, X_{2i}, ..., X_{K-1, i}, Y_i\}_{i=1}^n { X 1 i , X 2 i , ... , X K − 1 , i , Y i } i = 1 n が与えられたとき、k k k 番目のカテゴリについての回帰係数 β k \beta_k β k の最小二乗推定量 β ^ k \hat{\beta}_k β ^ k は、以下のように表すことができる:
β ^ k = Y ˉ k − Y ˉ K (2)
\hat{\beta}_k = \bar{Y}_k - \bar{Y}_K \tag{2}
β ^ k = Y ˉ k − Y ˉ K ( 2 )
ただし、Y ˉ k \bar{Y}_k Y ˉ k は k k k 番目のカテゴリについての Y Y Y のカテゴリ内サンプル平均であり、
Y ˉ k = 1 ∑ i = 1 n X k i ∑ i = 1 n X k i Y i
\bar{Y}_k = \frac{1}{\sum_{i=1}^n X_{ki}} \sum_{i=1}^n X_{ki} Y_i
Y ˉ k = ∑ i = 1 n X ki 1 i = 1 ∑ n X ki Y i
と表すことができる。ちなみに、分母の ∑ i = 1 n X k i \sum_{i=1}^n X_{ki} ∑ i = 1 n X ki は、k k k 番目のカテゴリに含まれるサンプルの数を意味している。
なお、切片 β 0 \beta_0 β 0 の推定量は、
β ^ 0 = Y ˉ K
\hat{\beta}_0 = \bar{Y}_K
β ^ 0 = Y ˉ K
である。
解釈
予測値
カテゴリ k k k に属するデータに対する予測値は、学習データにおける k k k 番目のカテゴリ内での Y Y Y の平均値 Y ˉ k \bar{Y}_k Y ˉ k になる。
このことを確かめるために、具体的に X k = 1 , X l = 0 ( l ≠ k ) X_k=1, X_l=0 \, (l\ne k) X k = 1 , X l = 0 ( l = k ) としてこの時の予測値 Y ^ \hat{Y} Y ^ を求めてみる:
Y ^ = β ^ 0 + β ^ 1 X 1 + β ^ 2 X 2 + . . . + β ^ K − 1 X K − 1 = β ^ 0 + β ^ k = Y ˉ K + ( Y ˉ k − Y ˉ K ) = Y ˉ k .
\begin{aligned}
\hat{Y}
&= \hat{\beta}_0 + \hat{\beta}_1 X_1 + \hat{\beta}_2 X_2 + ... + \hat{\beta}_{K-1} X_{K-1}\\
&= \hat{\beta}_0 + \hat{\beta}_k\\
&= \bar{Y}_K + (\bar{Y}_k - \bar{Y}_K)\\
&= \bar{Y}_k.
\end{aligned}
Y ^ = β ^ 0 + β ^ 1 X 1 + β ^ 2 X 2 + ... + β ^ K − 1 X K − 1 = β ^ 0 + β ^ k = Y ˉ K + ( Y ˉ k − Y ˉ K ) = Y ˉ k .
なお、 X K = 1 X_K=1 X K = 1 のときは X 1 = X 2 = . . . = X K − 1 = 0 X_1 = X_2 = ... = X_{K-1}=0 X 1 = X 2 = ... = X K − 1 = 0 であるので、予測値は Y ^ = β ^ 0 = Y ˉ K \hat{Y} = \hat{\beta}_0 = \bar{Y}_K Y ^ = β ^ 0 = Y ˉ K となることがわかる。
係数の意味
以下、係数 β k \beta_k β k とその推定量 β ^ k \hat{\beta}_k β ^ k の意味を条件付き期待値を用いて別の視点から解釈する。
係数 β k \beta_k β k は条件付き期待値を用いて
β k = E [ Y ∣ X k = 1 ] − E [ Y ∣ X K = 1 ]
\beta_k = E[Y\vert X_k=1] - E[Y\vert X_K=1]
β k = E [ Y ∣ X k = 1 ] − E [ Y ∣ X K = 1 ]
と表すことができる。
証明
まず、X k = 1 X_k=1 X k = 1 の時の式(1)の条件付き期待値を考えると、
このとき X l = 0 , k ≠ l X_l=0, \, k \ne l X l = 0 , k = l となるので、
E [ Y ∣ X k = 1 ] = β 0 + β k
E[Y\vert X_k = 1] = \beta_0 + \beta_k
E [ Y ∣ X k = 1 ] = β 0 + β k
となる。
一方、X K = 1 X_K=1 X K = 1 の時の式(1)の条件付き期待値は、
E [ Y ∣ X K = 1 ] = E [ Y ∣ X 1 = 0 , X 2 = 0 , . . . , X K − 1 = 0 ] = β 0
\begin{aligned}
E[Y\vert X_K=1] &= E[Y \vert X_1=0, X_2=0, ..., X_{K-1}=0]\\
&= \beta_0
\end{aligned}
E [ Y ∣ X K = 1 ] = E [ Y ∣ X 1 = 0 , X 2 = 0 , ... , X K − 1 = 0 ] = β 0
である。
したがって、
β k = E [ Y ∣ X k = 1 ] − E [ Y ∣ X K = 1 ]
\beta_k = E[Y\vert X_k=1] - E[Y\vert X_K=1]
β k = E [ Y ∣ X k = 1 ] − E [ Y ∣ X K = 1 ]
と表すことができる。
したがって、式(2)の係数推定量 β ^ k = Y ˉ k − Y ˉ K \hat{\beta}_k = \bar{Y}_k - \bar{Y}_K β ^ k = Y ˉ k − Y ˉ K は、上記の β k \beta_k β k の表現において条件付き期待値 E [ Y ∣ X k = 1 ] E[Y\vert X_k=1] E [ Y ∣ X k = 1 ] をカテゴリ k k k 内のサンプル平均 Y ˉ k \bar{Y}_k Y ˉ k で置き換えたものとして解釈することができる。
最小二乗法による導出(簡易版)
以下のような計画行列 X \boldsymbol{X} X を定義する:
X = ( 1 X 11 X 21 . . . X K − 1 , 1 1 X 12 X 22 . . . X K − 1 , 2 ⋮ ⋮ ⋮ . . . ⋮ 1 X 1 n X 2 n . . . X K − 1 , n )
\boldsymbol{X} =
\begin{pmatrix}
1 & X_{11} & X_{21} & ... & X_{K-1,1}\\
1 & X_{12} & X_{22} & ... & X_{K-1,2}\\
\vdots & \vdots & \vdots & ... \vdots\\
1 & X_{1n} & X_{2n} & ... & X_{K-1,n}\\
\end{pmatrix}
X = 1 1 ⋮ 1 X 11 X 12 ⋮ X 1 n X 21 X 22 ⋮ X 2 n ... ... ... ⋮ ... X K − 1 , 1 X K − 1 , 2 X K − 1 , n
このとき、最小二乗法による係数推定量 β ^ = ( β ^ 0 , β ^ 1 , β ^ 2 , . . , β ^ K − 1 ) ⊤ \hat{\boldsymbol{\beta}} = (\hat{\beta}_0, \hat{\beta}_1, \hat{\beta}_2, .., \hat{\beta}_{K-1})^\top β ^ = ( β ^ 0 , β ^ 1 , β ^ 2 , .. , β ^ K − 1 ) ⊤ は、以下のように表すことができる:
β ^ = ( X ⊤ X ) − 1 X ⊤ Y .
\hat{\boldsymbol{\beta}} = (\boldsymbol{X}^\top \boldsymbol{X})^{-1} \boldsymbol{X}^\top \boldsymbol{Y}.
β ^ = ( X ⊤ X ) − 1 X ⊤ Y .
ただし、 Y = ( Y 1 , Y 2 , . . . , Y n ) ⊤ \boldsymbol{Y} = (Y_1, Y_2, ..., Y_n)^\top Y = ( Y 1 , Y 2 , ... , Y n ) ⊤ である。
これを用いて残差 e ^ \hat{\boldsymbol{e}} e ^ を以下のように定義する:
e ^ = Y − X β ^ .
\hat{\boldsymbol{e}} = \boldsymbol{Y} - \boldsymbol{X} \hat{\boldsymbol{\beta}}.
e ^ = Y − X β ^ .
ここで、残差 e ^ \hat{\boldsymbol{e}} e ^ と計画行列 X \boldsymbol{X} X は直交する:
X ⊤ e ^ = 0 .
\boldsymbol{X}^\top \hat{\boldsymbol{e}} = \boldsymbol{0}.
X ⊤ e ^ = 0 .
証明
e ^ = Y − X β ^ = Y − X ( X ⊤ X ) − 1 X ⊤ Y
\begin{aligned}
\hat{\boldsymbol{e}}
&= \boldsymbol{Y} - \boldsymbol{X} \hat{\boldsymbol{\beta}}\\
&= \boldsymbol{Y} - \boldsymbol{X}(\boldsymbol{X}^\top \boldsymbol{X})^{-1} \boldsymbol{X}^\top \boldsymbol{Y}
\end{aligned}
e ^ = Y − X β ^ = Y − X ( X ⊤ X ) − 1 X ⊤ Y
と書き表すことができるので、
X ⊤ e ^ = X ⊤ Y − X ⊤ X ( X ⊤ X ) − 1 X ⊤ Y = X ⊤ Y − X ⊤ Y = 0 .
\begin{aligned}
\boldsymbol{X}^\top \hat{\boldsymbol{e}}
&= \boldsymbol{X}^\top \boldsymbol{Y} - \boldsymbol{X}^\top \boldsymbol{X}(\boldsymbol{X}^\top \boldsymbol{X})^{-1} \boldsymbol{X}^\top \boldsymbol{Y}\\
&= \boldsymbol{X}^\top \boldsymbol{Y} - \boldsymbol{X}^\top \boldsymbol{Y}\\
&= \boldsymbol{0}.
\end{aligned}
X ⊤ e ^ = X ⊤ Y − X ⊤ X ( X ⊤ X ) − 1 X ⊤ Y = X ⊤ Y − X ⊤ Y = 0 .
これを成分ごとに表すと、
∑ i = 1 n ( Y i − β ^ 0 − β ^ 1 X 1 i − β ^ 2 X 2 i − . . . − β ^ K − 1 X K − 1 , i ) = 0 ∑ i = 1 n X k i ( Y i − β ^ 0 − β ^ 1 X 1 i − β ^ 2 X 2 i − . . . − β ^ K − 1 X K − 1 , i ) = 0 ( k = 1 , 2 , . . . , K − 1 )
\begin{aligned}
\sum_{i=1}^n (Y_i - \hat{\beta}_0 - \hat{\beta}_1 X_{1i} - \hat{\beta}_2 X_{2i} - ... - \hat{\beta}_{K-1} X_{K-1, i}) &= 0\\
\sum_{i=1}^n X_{ki}(Y_i - \hat{\beta}_0 - \hat{\beta}_1 X_{1i} - \hat{\beta}_2 X_{2i} - ... - \hat{\beta}_{K-1} X_{K-1, i}) &= 0 \qquad (k=1, 2, ..., K-1)
\end{aligned}
i = 1 ∑ n ( Y i − β ^ 0 − β ^ 1 X 1 i − β ^ 2 X 2 i − ... − β ^ K − 1 X K − 1 , i ) i = 1 ∑ n X ki ( Y i − β ^ 0 − β ^ 1 X 1 i − β ^ 2 X 2 i − ... − β ^ K − 1 X K − 1 , i ) = 0 = 0 ( k = 1 , 2 , ... , K − 1 )
のようになる。
このうち後者の式から、以下が言える:
Y ˉ k = β ^ 0 + β ^ k ( k = 1 , 2 , . . . , K − 1 ) .
\bar{Y}_k = \hat{\beta}_0 + \hat{\beta}_k \quad (k=1, 2, ...,K-1).
Y ˉ k = β ^ 0 + β ^ k ( k = 1 , 2 , ... , K − 1 ) .
証明
上記のうち2つめの式を X k i X k i = X k i , X k i X l i = 0 ( k ≠ l ) X_{ki} X_{ki} = X_{ki}, \, X_{ki} X_{li} = 0 \, (k \ne l) X ki X ki = X ki , X ki X l i = 0 ( k = l ) に気をつけて書き改めると、
∑ i = 1 n X k i ( Y i − β ^ 0 − β ^ 1 X 1 i − β ^ 2 X 2 i − . . . − β ^ K − 1 X K − 1 , i ) = ∑ i = 1 n ( X k i Y i − β ^ 0 X k i − β ^ k X k i ) = ( ∑ i = 1 n X k i ) ( Y ˉ k − β ^ 0 − β ^ k ) = 0
\begin{aligned}
\sum_{i=1}^n X_{ki}&(Y_i - \hat{\beta}_0 - \hat{\beta}_1 X_{1i} - \hat{\beta}_2 X_{2i} - ... - \hat{\beta}_{K-1} X_{K-1, i})\\
&=\sum_{i=1}^n (X_{ki}Y_i - \hat{\beta}_0 X_{ki} - \hat{\beta}_k X_{ki})\\
&= \left(\sum_{i=1}^n X_{ki} \right) (\bar{Y}_k - \hat{\beta}_0 - \hat{\beta}_k)\\
&=0
\end{aligned}
i = 1 ∑ n X ki ( Y i − β ^ 0 − β ^ 1 X 1 i − β ^ 2 X 2 i − ... − β ^ K − 1 X K − 1 , i ) = i = 1 ∑ n ( X ki Y i − β ^ 0 X ki − β ^ k X ki ) = ( i = 1 ∑ n X ki ) ( Y ˉ k − β ^ 0 − β ^ k ) = 0
となることから、 (∑ i = 1 n X k i ≠ 0 \sum_{i=1}^n X_{ki} \ne 0 ∑ i = 1 n X ki = 0 、つまりカテゴリ k k k に属するサンプルの数が0個でない限り)以下が成り立つ:
Y ˉ k = β ^ 0 + β ^ k .
\bar{Y}_k = \hat{\beta}_0 + \hat{\beta}_k.
Y ˉ k = β ^ 0 + β ^ k .
次に、X K i = 1 − X 1 i − X 2 i − . . . − X K − 1 , i X_{Ki} = 1 - X_{1i} - X_{2i} - ... - X_{K-1,i} X K i = 1 − X 1 i − X 2 i − ... − X K − 1 , i であることに気をつけると、もう片方の式も用いて以下のことが言える:
∑ i = 1 n X K i ( Y i − β ^ 0 − β ^ 1 X 1 i − β ^ 2 X 2 i − . . . − β ^ K − 1 X K − 1 , i ) = 0.
\sum_{i=1}^n X_{Ki}(Y_i - \hat{\beta}_0 - \hat{\beta}_1 X_{1i} - \hat{\beta}_2 X_{2i} - ... - \hat{\beta}_{K-1} X_{K-1, i})=0.
i = 1 ∑ n X K i ( Y i − β ^ 0 − β ^ 1 X 1 i − β ^ 2 X 2 i − ... − β ^ K − 1 X K − 1 , i ) = 0.
これを用いると、先ほどと同様にして以下が成り立つことがわかる:
β ^ 0 = Y ˉ K .
\hat{\beta}_0 = \bar{Y}_K.
β ^ 0 = Y ˉ K .
証明
X K i X l i = 0 ( l ≠ K ) X_{Ki} X_{li} = 0 \, (l \ne K) X K i X l i = 0 ( l = K ) より、
∑ i = 1 n X K i ( Y i − β ^ 0 − β ^ 1 X 1 i − β ^ 2 X 2 i − . . . − β ^ K − 1 X K − 1 , i ) = ∑ i = 1 n ( X K i Y i − X K i β ^ 0 ) = ( ∑ i = 1 n X K i ) ( Y ˉ K − β ^ 0 ) = 0
\begin{aligned}
\sum_{i=1}^n X_{Ki}&(Y_i - \hat{\beta}_0 - \hat{\beta}_1 X_{1i} - \hat{\beta}_2 X_{2i} - ... - \hat{\beta}_{K-1} X_{K-1, i})\\
&= \sum_{i=1}^n (X_{Ki} Y_i - X_{Ki} \hat{\beta}_0)\\
&= \left(\sum_{i=1}^n X_{Ki}\right) (\bar{Y}_K - \hat{\beta}_0)\\
&= 0
\end{aligned}
i = 1 ∑ n X K i ( Y i − β ^ 0 − β ^ 1 X 1 i − β ^ 2 X 2 i − ... − β ^ K − 1 X K − 1 , i ) = i = 1 ∑ n ( X K i Y i − X K i β ^ 0 ) = ( i = 1 ∑ n X K i ) ( Y ˉ K − β ^ 0 ) = 0
したがって、(∑ i = 1 n X K i ≠ 0 \sum_{i=1}^n X_{Ki} \ne 0 ∑ i = 1 n X K i = 0 である限り)β ^ 0 = Y ˉ K \hat{\beta}_0 = \bar{Y}_K β ^ 0 = Y ˉ K が成り立つ。
以上を整理して、
β ^ k = Y ˉ k − Y ˉ K ( k = 1 , 2 , . . . , K − 1 ) β ^ 0 = Y ˉ K
\begin{aligned}
\hat{\beta}_k &= \bar{Y}_k - \bar{Y}_K \quad (k=1, 2, ..., K-1)\\
\hat{\beta}_0 &= \bar{Y}_K
\end{aligned}
β ^ k β ^ 0 = Y ˉ k − Y ˉ K ( k = 1 , 2 , ... , K − 1 ) = Y ˉ K
となることが示された。
補足: 残差回帰を用いたテクニカルな導出
以下では、以前の記事で解説した残差回帰を多段階に渡り適用した導出を紹介する。
https://zenn.dev/tatamiya/articles/79c2a291bc19484039ea
1 ~ K-1 番目の係数の推定式
次のようにサンプル平均 X ˉ k = 1 n ∑ i = 1 n X k i \bar{X}_k = \frac{1}{n} \sum_{i=1}^n X_{ki} X ˉ k = n 1 ∑ i = 1 n X ki により中心化した計画行列を考える:
X ~ 0 = ( X 11 − X ˉ 1 X 21 − X ˉ 2 ⋯ X K − 1 , 1 − X ˉ K − 1 X 12 − X ˉ 1 X 22 − X ˉ 2 ⋯ X K − 1 , 2 − X ˉ K − 1 ⋮ ⋮ ⋯ ⋮ X 1 n − X ˉ 1 X 2 n − X ˉ 2 ⋯ X K − 1 , n − X ˉ K − 1 )
\tilde{\boldsymbol{X}}_0 =
\begin{pmatrix}
X_{11} - \bar{X}_1 & X_{21} - \bar{X}_2 & \cdots & X_{K-1,1} - \bar{X}_{K-1}\\
X_{12} - \bar{X}_1 & X_{22} - \bar{X}_2 & \cdots & X_{K-1,2} - \bar{X}_{K-1}\\
\vdots & \vdots & \cdots & \vdots\\
X_{1n} - \bar{X}_1 & X_{2n} - \bar{X}_2 & \cdots & X_{K-1,n} - \bar{X}_{K-1}\\
\end{pmatrix}
X ~ 0 = X 11 − X ˉ 1 X 12 − X ˉ 1 ⋮ X 1 n − X ˉ 1 X 21 − X ˉ 2 X 22 − X ˉ 2 ⋮ X 2 n − X ˉ 2 ⋯ ⋯ ⋯ ⋯ X K − 1 , 1 − X ˉ K − 1 X K − 1 , 2 − X ˉ K − 1 ⋮ X K − 1 , n − X ˉ K − 1
これを用いると、切片 β 0 \beta_0 β 0 を除いた回帰係数の最小二乗推定量 β ^ ( 0 ) = ( β ^ 1 , β ^ 2 , . . . , β ^ K − 1 ) ⊤ \hat{\boldsymbol{\beta}}^{(0)} = (\hat{\beta}_1, \hat{\beta}_2, ..., \hat{\beta}_{K-1})^\top β ^ ( 0 ) = ( β ^ 1 , β ^ 2 , ... , β ^ K − 1 ) ⊤ は以下のように表すことができる:
β ^ ( 0 ) = ( X ~ 0 ⊤ X ~ 0 ) − 1 X ~ 0 ⊤ Y
\hat{\boldsymbol{\beta}}^{(0)} = (\tilde{\boldsymbol{X}}_0^\top \tilde{\boldsymbol{X}}_0)^{-1} \tilde{\boldsymbol{X}}_0^\top \boldsymbol{Y}
β ^ ( 0 ) = ( X ~ 0 ⊤ X ~ 0 ) − 1 X ~ 0 ⊤ Y
ただし、Y = ( Y 1 , Y 2 , . . . , Y n ) ⊤ \boldsymbol{Y} = (Y_1, Y_2, ..., Y_n)^\top Y = ( Y 1 , Y 2 , ... , Y n ) ⊤ である。
1番目から順に係数を減らして K-1 番目を求める
以降では、残差回帰を多段階用いて推定対象の係数を絞り込んでいき、最終的に β ^ K − 1 \hat{\beta}_{K-1} β ^ K − 1 を求めることを考える。
模式的に表すと次のようになる:
β ^ ( 0 ) = ( β ^ 1 , β ^ 2 , . . . , β ^ K − 1 ) ⊤ \hat{\boldsymbol{\beta}}^{(0)} = (\hat{\beta}_1, \hat{\beta}_2, ..., \hat{\beta}_{K-1})^\top β ^ ( 0 ) = ( β ^ 1 , β ^ 2 , ... , β ^ K − 1 ) ⊤
↓
β ^ ( 1 ) = ( β ^ 2 , β ^ 3 , . . . , β ^ K − 1 ) ⊤ \hat{\boldsymbol{\beta}}^{(1)} = (\hat{\beta}_2, \hat{\beta}_3, ..., \hat{\beta}_{K-1})^\top β ^ ( 1 ) = ( β ^ 2 , β ^ 3 , ... , β ^ K − 1 ) ⊤
↓
...
↓
β ^ ( K − 3 ) = ( β ^ K − 2 , β ^ K − 1 ) ⊤ \hat{\boldsymbol{\beta}}^{(K-3)} = (\hat{\beta}_{K-2}, \hat{\beta}_{K-1})^\top β ^ ( K − 3 ) = ( β ^ K − 2 , β ^ K − 1 ) ⊤
↓
β ^ ( K − 2 ) = ( β ^ K − 1 ) \hat{\boldsymbol{\beta}}^{(K-2)} = (\hat{\beta}_{K-1}) β ^ ( K − 2 ) = ( β ^ K − 1 )
1番目を除外した係数推定
まず、β ^ ( 1 ) = ( β ^ 2 , β ^ 3 , . . . , β ^ K − 1 ) ⊤ \hat{\boldsymbol{\beta}}^{(1)} = (\hat{\beta}_2, \hat{\beta}_3, ..., \hat{\beta}_{K-1} )^\top β ^ ( 1 ) = ( β ^ 2 , β ^ 3 , ... , β ^ K − 1 ) ⊤ を求める。
計画行列 X ~ 0 \tilde{\boldsymbol{X}}_0 X ~ 0 を以下のように X ~ 0 = ( Z ~ 1 , Z ~ 1 ˉ ) \tilde{\boldsymbol{X}}_0 = (\tilde{\boldsymbol{Z}}_1, \tilde{\boldsymbol{Z}}_{\bar{1}}) X ~ 0 = ( Z ~ 1 , Z ~ 1 ˉ ) の形に分割する:
Z ~ 1 = ( X 11 − X ˉ 1 X 12 − X ˉ 1 ⋮ X 1 n − X ˉ 1 ) Z ~ 1 ˉ = ( X 21 − X ˉ 2 X 31 − X ˉ 3 ⋯ X K − 1 , 1 − X ˉ K − 1 X 22 − X ˉ 2 X 32 − X ˉ 3 ⋯ X K − 1 , 2 − X ˉ K − 1 ⋮ ⋮ ⋯ ⋮ X 2 n − X ˉ 2 X 3 n − X ˉ 3 ⋯ X K − 1 , n − X ˉ K − 1 ) .
\tilde{\boldsymbol{Z}}_1 =
\begin{pmatrix}
X_{11} - \bar{X}_1\\
X_{12} - \bar{X}_1\\
\vdots\\
X_{1n} - \bar{X}_1
\end{pmatrix}
\qquad
\tilde{\boldsymbol{Z}}_{\bar{1}}=
\begin{pmatrix}
X_{21} - \bar{X}_2 & X_{31} - \bar{X}_3 & \cdots & X_{K-1,1} - \bar{X}_{K-1}\\
X_{22} - \bar{X}_2 & X_{32} - \bar{X}_3 & \cdots & X_{K-1,2} - \bar{X}_{K-1}\\
\vdots & \vdots & \cdots & \vdots\\
X_{2n} - \bar{X}_2 & X_{3n} - \bar{X}_3 & \cdots & X_{K-1,n} - \bar{X}_{K-1}\\
\end{pmatrix}.
Z ~ 1 = X 11 − X ˉ 1 X 12 − X ˉ 1 ⋮ X 1 n − X ˉ 1 Z ~ 1 ˉ = X 21 − X ˉ 2 X 22 − X ˉ 2 ⋮ X 2 n − X ˉ 2 X 31 − X ˉ 3 X 32 − X ˉ 3 ⋮ X 3 n − X ˉ 3 ⋯ ⋯ ⋯ ⋯ X K − 1 , 1 − X ˉ K − 1 X K − 1 , 2 − X ˉ K − 1 ⋮ X K − 1 , n − X ˉ K − 1 .
これを用いて
X ~ 1 = { 1 n − Z ~ 1 ( Z ~ 1 ⊤ Z ~ 1 ) − 1 Z ~ 1 ⊤ } Z ~ 1 ˉ
\tilde{\boldsymbol{X}}_1 = \{\boldsymbol{1}_n - \tilde{\boldsymbol{Z}}_{1} (\tilde{\boldsymbol{Z}}_{1}^\top \tilde{\boldsymbol{Z}}_{1})^{-1}\tilde{\boldsymbol{Z}}_{1}^\top\}\tilde{\boldsymbol{Z}}_{\bar{1}}
X ~ 1 = { 1 n − Z ~ 1 ( Z ~ 1 ⊤ Z ~ 1 ) − 1 Z ~ 1 ⊤ } Z ~ 1 ˉ
を定義する(1 n \boldsymbol{1}_n 1 n は n n n 次元の単位行列)と、 β ^ ( 1 ) \hat{\boldsymbol{\beta}}^{(1)} β ^ ( 1 ) は以下のように表すことができる:
β ^ ( 1 ) = ( X ~ 1 ⊤ X ~ 1 ) − 1 X ~ 1 ⊤ Y .
\hat{\boldsymbol{\beta}}^{(1)} = (\tilde{\boldsymbol{X}}_1^\top \tilde{\boldsymbol{X}}_1)^{-1} \tilde{\boldsymbol{X}}_1^\top \boldsymbol{Y}.
β ^ ( 1 ) = ( X ~ 1 ⊤ X ~ 1 ) − 1 X ~ 1 ⊤ Y .
なお、この時 X ~ 1 \tilde{\boldsymbol{X}}_1 X ~ 1 の各成分は、
( X ~ 1 ) k , i = X k , i − X ˉ k 1 − X 1 i 1 − X ˉ 1
(\tilde{\boldsymbol{X}}_1)_{k,i} = X_{k,i} - \bar{X}_k \frac{1 - X_{1i}}{1 - \bar{X}_1}
( X ~ 1 ) k , i = X k , i − X ˉ k 1 − X ˉ 1 1 − X 1 i
である。
証明
Z ~ 1 ⊤ Z ~ 1 = ∑ i = 1 n ( X 1 i − X ˉ 1 ) 2
\tilde{\boldsymbol{Z}}_1^\top \tilde{\boldsymbol{Z}}_1 = \sum_{i=1}^n (X_{1i} - \bar{X}_1)^2
Z ~ 1 ⊤ Z ~ 1 = i = 1 ∑ n ( X 1 i − X ˉ 1 ) 2
Z ~ 1 ⊤ Z ~ 1 ˉ = − n X ˉ 1 ( X ˉ 2 , X ˉ 3 , . . . , X ˉ K − 1 )
\tilde{\boldsymbol{Z}}_{1}^\top\tilde{\boldsymbol{Z}}_{\bar{1}}
= -n \bar{X}_1 (\bar{X}_2, \bar{X}_3, ..., \bar{X}_{K-1})
Z ~ 1 ⊤ Z ~ 1 ˉ = − n X ˉ 1 ( X ˉ 2 , X ˉ 3 , ... , X ˉ K − 1 )
であるので、
Z ~ 1 ( Z ~ 1 ⊤ Z ~ 1 ) − 1 Z ~ 1 ⊤ Z ~ 1 ˉ = − n X ˉ 1 ∑ i = 1 n ( X 1 i − X ˉ 1 ) 2 ( X ˉ 2 ( X 21 − X ˉ 2 ) X ˉ 3 ( X 31 − X ˉ 3 ) . . . X ˉ K − 1 ( X K − 1 , 1 − X ˉ K − 1 ) X ˉ 2 ( X 22 − X ˉ 2 ) X ˉ 3 ( X 32 − X ˉ 3 ) . . . X ˉ K − 1 ( X K − 1 , 2 − X ˉ K − 1 ) ⋮ ⋮ ⋮ X ˉ 2 ( X 2 n − X ˉ 2 ) X ˉ 3 ( X 3 n − X ˉ 3 ) . . . X ˉ K − 1 ( X K − 1 , n − X ˉ K − 1 ) )
\tilde{\boldsymbol{Z}}_{1} (\tilde{\boldsymbol{Z}}_{1}^\top \tilde{\boldsymbol{Z}}_{1})^{-1}\tilde{\boldsymbol{Z}}_{1}^\top \tilde{\boldsymbol{Z}}_{\bar{1}} =
-\frac{n \bar{X}_1}{\sum_{i=1}^n (X_{1i} - \bar{X}_1)^2}
\begin{pmatrix}
\bar{X}_2 (X_{21} - \bar{X}_2) & \bar{X}_3 (X_{31} - \bar{X}_3) & ... & \bar{X}_{K-1} (X_{K-1, 1} - \bar{X}_{K-1})\\
\bar{X}_2 (X_{22} - \bar{X}_2) & \bar{X}_3 (X_{32} - \bar{X}_3) & ... & \bar{X}_{K-1} (X_{K-1, 2} - \bar{X}_{K-1})\\
\vdots & \vdots & & \vdots\\
\bar{X}_2 (X_{2n} - \bar{X}_2) & \bar{X}_3 (X_{3n} - \bar{X}_3) & ... & \bar{X}_{K-1} (X_{K-1, n} - \bar{X}_{K-1})\\
\end{pmatrix}
Z ~ 1 ( Z ~ 1 ⊤ Z ~ 1 ) − 1 Z ~ 1 ⊤ Z ~ 1 ˉ = − ∑ i = 1 n ( X 1 i − X ˉ 1 ) 2 n X ˉ 1 X ˉ 2 ( X 21 − X ˉ 2 ) X ˉ 2 ( X 22 − X ˉ 2 ) ⋮ X ˉ 2 ( X 2 n − X ˉ 2 ) X ˉ 3 ( X 31 − X ˉ 3 ) X ˉ 3 ( X 32 − X ˉ 3 ) ⋮ X ˉ 3 ( X 3 n − X ˉ 3 ) ... ... ... X ˉ K − 1 ( X K − 1 , 1 − X ˉ K − 1 ) X ˉ K − 1 ( X K − 1 , 2 − X ˉ K − 1 ) ⋮ X ˉ K − 1 ( X K − 1 , n − X ˉ K − 1 )
となる。
これを用いると、
( X ~ 1 ) k , i = ( Z ~ 1 ˉ ) k , i − ( Z ~ 1 ( Z ~ 1 ⊤ Z ~ 1 ) − 1 Z ~ 1 ⊤ Z ~ 1 ˉ ) k , i = X k i − X ˉ k + n ∑ i = 1 n ( X 1 i − X ˉ 1 ) 2 X ˉ 1 X ˉ k ( X 1 i − X ˉ 1 ) .
\begin{aligned}
(\tilde{\boldsymbol{X}}_1)_{k,i}
&= (\tilde{\boldsymbol{Z}}_{\bar{1}})_{k,i} - \left( \tilde{\boldsymbol{Z}}_{1} (\tilde{\boldsymbol{Z}}_{1}^\top \tilde{\boldsymbol{Z}}_{1})^{-1}\tilde{\boldsymbol{Z}}_{1}^\top \tilde{\boldsymbol{Z}}_{\bar{1}}\right)_{k,i}\\
&= X_{ki} - \bar{X}_k + \frac{n}{\sum_{i=1}^n (X_{1i} - \bar{X}_1)^2} \bar{X}_1 \bar{X}_k (X_{1i} - \bar{X}_1).
\end{aligned}
( X ~ 1 ) k , i = ( Z ~ 1 ˉ ) k , i − ( Z ~ 1 ( Z ~ 1 ⊤ Z ~ 1 ) − 1 Z ~ 1 ⊤ Z ~ 1 ˉ ) k , i = X ki − X ˉ k + ∑ i = 1 n ( X 1 i − X ˉ 1 ) 2 n X ˉ 1 X ˉ k ( X 1 i − X ˉ 1 ) .
ここで、
∑ i = 1 n ( X 1 i − X ˉ 1 ) 2 = ∑ i = 1 n X 1 i 2 − n X ˉ 1 2 = ∑ i = 1 n X 1 i − n X ˉ 1 2 ∵ X k i 2 = X k i = n X ˉ 1 − n X ˉ 1 2 = n X ˉ 1 ( 1 − X ˉ 1 )
\begin{aligned}
\sum_{i=1}^n (X_{1i} - \bar{X}_1)^2
&= \sum_{i=1}^n X_{1i}^2 - n \bar{X}_1^2\\
&= \sum_{i=1}^n X_{1i} -n \bar{X}_1^2 \qquad \because X_{ki}^2 = X_{ki}\\
&= n \bar{X}_1 -n \bar{X}_1^2\\
&= n \bar{X}_1 (1 - \bar{X}_1)
\end{aligned}
i = 1 ∑ n ( X 1 i − X ˉ 1 ) 2 = i = 1 ∑ n X 1 i 2 − n X ˉ 1 2 = i = 1 ∑ n X 1 i − n X ˉ 1 2 ∵ X ki 2 = X ki = n X ˉ 1 − n X ˉ 1 2 = n X ˉ 1 ( 1 − X ˉ 1 )
であることから、
( X ~ 1 ) k , i = X k i − X ˉ k n X ˉ 1 ( 1 − X ˉ 1 ) − n X ˉ 1 X 1 i + n X ˉ 1 2 n X ˉ 1 ( 1 − X ˉ 1 ) = X k i − X ˉ k 1 − X 1 i 1 − X ˉ 1 .
\begin{aligned}
(\tilde{\boldsymbol{X}}_1)_{k,i}
&= X_{ki} - \bar{X}_k \frac{n\bar{X}_1 (1 - \bar{X}_1) - n\bar{X}_1 X_{1i} + n \bar{X}_1^2}{n\bar{X}_1 (1 - \bar{X}_1)}\\
&= X_{ki} - \bar{X}_k \frac{1 - X_{1i}}{1 - \bar{X}_1}.
\end{aligned}
( X ~ 1 ) k , i = X ki − X ˉ k n X ˉ 1 ( 1 − X ˉ 1 ) n X ˉ 1 ( 1 − X ˉ 1 ) − n X ˉ 1 X 1 i + n X ˉ 1 2 = X ki − X ˉ k 1 − X ˉ 1 1 − X 1 i .
2番目以降を順に除外していく
同じ要領で β ^ 2 , β ^ 3 , . . . \hat{\beta}_2, \hat{\beta}_3, ... β ^ 2 , β ^ 3 , ... の順でひとつずつ順番に減らしていくことを考える。
すると、l l l 番目まで減らした時、β ^ ( l ) = ( β ^ l + 1 , β ^ l + 2 , . . . , β ^ K − 1 ) ⊤ \hat{\boldsymbol{\beta}}^{(l)} = (\hat{\beta}_{l+1}, \hat{\beta}_{l+2}, ..., \hat{\beta}_{K-1})^\top β ^ ( l ) = ( β ^ l + 1 , β ^ l + 2 , ... , β ^ K − 1 ) ⊤ は、行列 X ~ l \tilde{\boldsymbol{X}}_l X ~ l を用いて
β ^ ( l ) = ( X ~ l ⊤ X ~ l ) − 1 X ~ l ⊤ Y
\hat{\boldsymbol{\beta}}^{(l)} = (\tilde{\boldsymbol{X}}_l^\top \tilde{\boldsymbol{X}}_l)^{-1} \tilde{\boldsymbol{X}}_l^\top \boldsymbol{Y}
β ^ ( l ) = ( X ~ l ⊤ X ~ l ) − 1 X ~ l ⊤ Y
のように表すことができる。
なおこのとき、行列 X ~ l \tilde{\boldsymbol{X}}_l X ~ l の各成分は以下のようになることを数学的帰納法によって示すことができる:
( X ~ l ) k , i = X k , i − X ˉ k 1 − X 1 i − X 2 i − . . . − X l i 1 − X ˉ 1 − X ˉ 2 − . . . − X ˉ l . (3)
(\tilde{\boldsymbol{X}}_l)_{k,i} = X_{k,i} - \bar{X}_k \frac{1 - X_{1i} - X_{2i} - ... - X_{li}}{1 - \bar{X}_1 - \bar{X}_2 - ... - \bar{X}_l}. \tag{3}
( X ~ l ) k , i = X k , i − X ˉ k 1 − X ˉ 1 − X ˉ 2 − ... − X ˉ l 1 − X 1 i − X 2 i − ... − X l i . ( 3 )
証明
l = 1 l=1 l = 1 については、前節で示した通り。
以下、l l l において式(3)が成り立っていると仮定して、l + 1 l+1 l + 1 でも同様の式
( X ~ l + 1 ) k , i = X k , i − X ˉ k 1 − X 1 i − X 2 i − . . . − X l i − X l + 1 , i 1 − X ˉ 1 − X ˉ 2 − . . . − X ˉ l − X ˉ l + 1
(\tilde{\boldsymbol{X}}_{l+1})_{k,i}
= X_{k,i} - \bar{X}_k \frac{1 - X_{1i} - X_{2i} - ... - X_{li} - X_{l+1,i}}{1 - \bar{X}_1 - \bar{X}_2 - ... - \bar{X}_l - \bar{X}_{l+1}}
( X ~ l + 1 ) k , i = X k , i − X ˉ k 1 − X ˉ 1 − X ˉ 2 − ... − X ˉ l − X ˉ l + 1 1 − X 1 i − X 2 i − ... − X l i − X l + 1 , i
が成り立つことを示す。
行列 X ~ l \tilde{\boldsymbol{X}}_l X ~ l を、以下のように X ~ l = ( Z ~ l + 1 , Z ~ l + 1 ˉ ) \tilde{\boldsymbol{X}}_l = (\tilde{\boldsymbol{Z}}_{l+1}, \tilde{\boldsymbol{Z}}_{\bar{l+1}}) X ~ l = ( Z ~ l + 1 , Z ~ l + 1 ˉ ) の形に分解する:
Z ~ l + 1 = ( ( X ~ l ) l + 1 , 1 ( X ~ l ) l + 1 , 2 ⋮ ( X ~ l ) l + 1 , n ) , Z ~ l + 1 ˉ = ( ( X ~ l ) l + 2 , 1 ( X ~ l ) l + 3 , 1 ( X ~ l ) K − 1 , 1 ( X ~ l ) l + 2 , 2 ( X ~ l ) l + 3 , 3 ( X ~ l ) K − 1 , 3 ⋮ ⋮ . . . ⋮ ( X ~ l ) l + 2 , n ( X ~ l ) l + 3 , n ( X ~ l ) K − 1 , n ) .
\tilde{\boldsymbol{Z}}_{l+1}=
\begin{pmatrix}
(\tilde{\boldsymbol{X}}_l)_{l+1,1}\\
(\tilde{\boldsymbol{X}}_l)_{l+1,2}\\
\vdots\\
(\tilde{\boldsymbol{X}}_l)_{l+1,n}
\end{pmatrix},
\qquad
\tilde{\boldsymbol{Z}}_{\bar{l+1}}=
\begin{pmatrix}
(\tilde{\boldsymbol{X}}_l)_{l+2,1} & (\tilde{\boldsymbol{X}}_l)_{l+3,1} & (\tilde{\boldsymbol{X}}_l)_{K-1,1}\\
(\tilde{\boldsymbol{X}}_l)_{l+2,2} & (\tilde{\boldsymbol{X}}_l)_{l+3,3} & (\tilde{\boldsymbol{X}}_l)_{K-1,3}\\
\vdots & \vdots & ... & \vdots\\
(\tilde{\boldsymbol{X}}_l)_{l+2,n} & (\tilde{\boldsymbol{X}}_l)_{l+3,n} & (\tilde{\boldsymbol{X}}_l)_{K-1,n}\\
\end{pmatrix}.
Z ~ l + 1 = ( X ~ l ) l + 1 , 1 ( X ~ l ) l + 1 , 2 ⋮ ( X ~ l ) l + 1 , n , Z ~ l + 1 ˉ = ( X ~ l ) l + 2 , 1 ( X ~ l ) l + 2 , 2 ⋮ ( X ~ l ) l + 2 , n ( X ~ l ) l + 3 , 1 ( X ~ l ) l + 3 , 3 ⋮ ( X ~ l ) l + 3 , n ( X ~ l ) K − 1 , 1 ( X ~ l ) K − 1 , 3 ... ( X ~ l ) K − 1 , n ⋮ .
これを用いると、X ~ l + 1 \tilde{\boldsymbol{X}}_{l+1} X ~ l + 1 は以下のように表すことができる:
X ~ l + 1 = { I n − Z ~ l + 1 ( Z ~ l + 1 ⊤ Z ~ l + 1 ) − 1 Z ~ l + 1 ⊤ } Z ~ l + 1 ˉ .
\tilde{\boldsymbol{X}}_{l+1} = \left\{ \boldsymbol{I}_n -
\tilde{\boldsymbol{Z}}_{l+1}(\tilde{\boldsymbol{Z}}_{l+1}^\top \tilde{\boldsymbol{Z}}_{l+1})^{-1}\tilde{\boldsymbol{Z}}_{l+1}^\top
\right\}\tilde{\boldsymbol{Z}}_{\bar{l+1}}.
X ~ l + 1 = { I n − Z ~ l + 1 ( Z ~ l + 1 ⊤ Z ~ l + 1 ) − 1 Z ~ l + 1 ⊤ } Z ~ l + 1 ˉ .
ここで、
Z ~ l + 1 ⊤ Z ~ l + 1 = ∑ i = 1 n ( X l + 1 , i − X ˉ l + 1 1 − X 1 i − X 2 i − . . . − X l i 1 − X ˉ 1 − X ˉ 2 − . . . − X ˉ l ) 2 = n X ˉ l + 1 1 − X ˉ 1 − X ˉ 2 − . . . − X ˉ l − X ˉ l + 1 1 − X ˉ 1 − X ˉ 2 − . . . − X ˉ l
\begin{aligned}
\tilde{\boldsymbol{Z}}_{l+1}^\top \tilde{\boldsymbol{Z}}_{l+1}
&= \sum_{i=1}^n \left( X_{l+1,i} - \bar{X}_{l+1} \frac{1 - X_{1i} - X_{2i} - ... - X_{li}}{1 - \bar{X}_1 - \bar{X}_2 - ... - \bar{X}_l}
\right)^2\\
&= n \bar{X}_{l+1} \frac{1 - \bar{X}_1 - \bar{X}_2 - ... - \bar{X}_l - \bar{X}_{l+1}}{1 - \bar{X}_1 - \bar{X}_2 - ... - \bar{X}_l}
\end{aligned}
Z ~ l + 1 ⊤ Z ~ l + 1 = i = 1 ∑ n ( X l + 1 , i − X ˉ l + 1 1 − X ˉ 1 − X ˉ 2 − ... − X ˉ l 1 − X 1 i − X 2 i − ... − X l i ) 2 = n X ˉ l + 1 1 − X ˉ 1 − X ˉ 2 − ... − X ˉ l 1 − X ˉ 1 − X ˉ 2 − ... − X ˉ l − X ˉ l + 1
( Z ~ l + 1 ⊤ Z ~ l + 1 ˉ ) k = ∑ i = 1 n ( X l + 1 , i − X ˉ l + 1 1 − X 1 i − X 2 i − . . . − X l i 1 − X ˉ 1 − X ˉ 2 − . . . − X ˉ l ) ( X k , i − X ˉ k 1 − X 1 i − X 2 i − . . . − X l i 1 − X ˉ 1 − X ˉ 2 − . . . − X ˉ l ) = − n X ˉ l + 1 X ˉ k 1 − X ˉ 1 − X ˉ 2 − . . . − X ˉ l
\begin{aligned}
(\tilde{\boldsymbol{Z}}_{l+1}^\top \tilde{\boldsymbol{Z}}_{\bar{l+1}})_k
&= \sum_{i=1}^n \left(
X_{l+1,i} - \bar{X}_{l+1} \frac{1 - X_{1i} - X_{2i} - ... - X_{li}}{1 - \bar{X}_1 - \bar{X}_2 - ... - \bar{X}_l}
\right)
\left(
X_{k,i} - \bar{X}_{k} \frac{1 - X_{1i} - X_{2i} - ... - X_{li}}{1 - \bar{X}_1 - \bar{X}_2 - ... - \bar{X}_l}
\right)\\
&= -n \frac{\bar{X}_{l+1} \bar{X}_k}{1 - \bar{X}_1 - \bar{X}_2 - ... - \bar{X}_l}
\end{aligned}
( Z ~ l + 1 ⊤ Z ~ l + 1 ˉ ) k = i = 1 ∑ n ( X l + 1 , i − X ˉ l + 1 1 − X ˉ 1 − X ˉ 2 − ... − X ˉ l 1 − X 1 i − X 2 i − ... − X l i ) ( X k , i − X ˉ k 1 − X ˉ 1 − X ˉ 2 − ... − X ˉ l 1 − X 1 i − X 2 i − ... − X l i ) = − n 1 − X ˉ 1 − X ˉ 2 − ... − X ˉ l X ˉ l + 1 X ˉ k
であることから、
( Z ~ l + 1 ( Z ~ l + 1 ⊤ Z ~ l + 1 ) − 1 Z ~ l + 1 ⊤ Z ~ l + 1 ˉ ) k , i = − ( X l + 1 , i − X ˉ l + 1 1 − X 1 i − X 2 i − . . . − X l i 1 − X ˉ 1 − X ˉ 2 − . . . − X ˉ l ) X ˉ k 1 − X ˉ 1 − X ˉ 2 − . . . − X ˉ l − X ˉ l + 1
\begin{aligned}
\left( \tilde{\boldsymbol{Z}}_{l+1}(\tilde{\boldsymbol{Z}}_{l+1}^\top \tilde{\boldsymbol{Z}}_{l+1})^{-1}\tilde{\boldsymbol{Z}}_{l+1}^\top \tilde{\boldsymbol{Z}}_{\bar{l+1}} \right)_{k,i}
&= - \left(
X_{l+1, i} - \bar{X}_{l+1}\frac{1 - X_{1i} - X_{2i} - ... - X_{li}}{1 - \bar{X}_1 - \bar{X}_2 - ... - \bar{X}_l}
\right)\frac{\bar{X}_k}{1 - \bar{X}_1 - \bar{X}_2 - ... - \bar{X}_{l}- \bar{X}_{l+1}}
\end{aligned}
( Z ~ l + 1 ( Z ~ l + 1 ⊤ Z ~ l + 1 ) − 1 Z ~ l + 1 ⊤ Z ~ l + 1 ˉ ) k , i = − ( X l + 1 , i − X ˉ l + 1 1 − X ˉ 1 − X ˉ 2 − ... − X ˉ l 1 − X 1 i − X 2 i − ... − X l i ) 1 − X ˉ 1 − X ˉ 2 − ... − X ˉ l − X ˉ l + 1 X ˉ k
となり、したがって、
( X ~ l + 1 ) k , i = ( Z ~ l + 1 ˉ ) k , i − ( Z ~ l + 1 ( Z ~ l + 1 ⊤ Z ~ l + 1 ) − 1 Z ~ l + 1 ⊤ Z ~ l + 1 ˉ ) k , i = X k , i − X ˉ k 1 − X 1 i − X 2 i − . . . − X l i − X l + 1 , i 1 − X ˉ 1 − X ˉ 2 − . . . − X ˉ l − X ˉ l + 1
\begin{aligned}
(\tilde{\boldsymbol{X}}_{l+1})_{k,i}
&= (\tilde{\boldsymbol{Z}}_{\bar{l+1}})_{k,i} - \left( \tilde{\boldsymbol{Z}}_{l+1}(\tilde{\boldsymbol{Z}}_{l+1}^\top \tilde{\boldsymbol{Z}}_{l+1})^{-1}\tilde{\boldsymbol{Z}}_{l+1}^\top \tilde{\boldsymbol{Z}}_{\bar{l+1}} \right)_{k,i}\\
&= X_{k,i} - \bar{X}_k \frac{1 - X_{1i} - X_{2i} - ... - X_{li} - X_{l+1,i}}{1 - \bar{X}_1 - \bar{X}_2 - ... - \bar{X}_l - \bar{X}_{l+1}}
\end{aligned}
( X ~ l + 1 ) k , i = ( Z ~ l + 1 ˉ ) k , i − ( Z ~ l + 1 ( Z ~ l + 1 ⊤ Z ~ l + 1 ) − 1 Z ~ l + 1 ⊤ Z ~ l + 1 ˉ ) k , i = X k , i − X ˉ k 1 − X ˉ 1 − X ˉ 2 − ... − X ˉ l − X ˉ l + 1 1 − X 1 i − X 2 i − ... − X l i − X l + 1 , i
が成り立つことが示された。
K-1 番目の係数を求める
以上から、最終的に β ^ K − 1 \hat{\beta}_{K-1} β ^ K − 1 は以下のように求めることができる:
β ^ K − 1 = ( X ~ K − 2 ⊤ X ~ K − 2 ) − 1 X ~ K − 2 ⊤ Y
\hat{\beta}_{K-1} = (\tilde{\boldsymbol{X}}_{K-2}^\top \tilde{\boldsymbol{X}}_{K-2})^{-1} \tilde{\boldsymbol{X}}_{K-2}^\top \boldsymbol{Y}
β ^ K − 1 = ( X ~ K − 2 ⊤ X ~ K − 2 ) − 1 X ~ K − 2 ⊤ Y
ただし、ベクトル X ~ K − 2 \tilde{\boldsymbol{X}}_{K-2} X ~ K − 2 の i i i 番目の成分は以下のように表される:
( X ~ K − 2 ) i = X K − 1 , i − X ˉ K − 1 1 − X 1 i − X 2 i − . . . − X K − 2 , i 1 − X ˉ 1 − X ˉ 2 − . . . − X ˉ K − 2 .
(\tilde{\boldsymbol{X}}_{K-2})_i = X_{K-1,i} - \bar{X}_{K-1} \frac{1 - X_{1i} - X_{2i} - ... - X_{K-2,i}}{1 - \bar{X}_1 - \bar{X}_2 - ... - \bar{X}_{K-2}}.
( X ~ K − 2 ) i = X K − 1 , i − X ˉ K − 1 1 − X ˉ 1 − X ˉ 2 − ... − X ˉ K − 2 1 − X 1 i − X 2 i − ... − X K − 2 , i .
これを計算して、
β ^ K − 1 = Y ˉ K − 1 − Y ˉ K
\hat{\beta}_{K-1} = \bar{Y}_{K-1} - \bar{Y}_K
β ^ K − 1 = Y ˉ K − 1 − Y ˉ K
が得られる。
計算過程
X ~ K − 2 ⊤ X ~ K − 2 = n X ˉ K − 1 1 − X ˉ 1 − X ˉ 2 − . . . − X ˉ K − 2 − X ˉ K − 1 1 − X ˉ 1 − X ˉ 2 − . . . − X ˉ K − 2
\tilde{\boldsymbol{X}}_{K-2}^\top \tilde{\boldsymbol{X}}_{K-2}
= n \bar{X}_{K-1} \frac{1 - \bar{X}_1 - \bar{X}_2 - ... - \bar{X}_{K-2} - \bar{X}_{K-1}}{1 - \bar{X}_1 - \bar{X}_2 - ... - \bar{X}_{K-2}}
X ~ K − 2 ⊤ X ~ K − 2 = n X ˉ K − 1 1 − X ˉ 1 − X ˉ 2 − ... − X ˉ K − 2 1 − X ˉ 1 − X ˉ 2 − ... − X ˉ K − 2 − X ˉ K − 1
X ~ K − 2 ⊤ Y = ∑ i = 1 n ( X K − 1 , i − X ˉ K − 1 1 − X 1 i − X 2 i − . . . − X K − 2 , i 1 − X ˉ 1 − X ˉ 2 − . . . − X ˉ K − 2 ) Y i = ∑ i = 1 n X K − 1 , i Y i − X ˉ K − 1 ∑ i = 1 n Y i − ∑ i = 1 n X 1 i Y i − ∑ i = 1 n X 2 , i Y i − . . . − ∑ i = 1 n X K − 2 , i Y i 1 − X ˉ 1 − X ˉ 2 − . . . − X ˉ K − 2 = n Y ˉ K − 1 X ˉ K − 1 − n X ˉ K − 1 Y ˉ − X ˉ 1 Y ˉ 1 − X ˉ 2 Y ˉ 2 − . . . − X ˉ K − 2 Y ˉ K − 2 1 − X ˉ 1 − X ˉ 2 − . . . − X ˉ K − 2 . . . ( ∗ )
\begin{aligned}
\tilde{\boldsymbol{X}}_{K-2}^\top \boldsymbol{Y}
&= \sum_{i=1}^n
\left(
X_{K-1,i} - \bar{X}_{K-1} \frac{1 - X_{1i} - X_{2i} - ... - X_{K-2,i}}{1 - \bar{X}_1 - \bar{X}_2 - ... - \bar{X}_{K-2}}
\right) Y_i \\
&= \sum_{i=1}^n X_{K-1,i}Y_i - \bar{X}_{K-1}
\frac{\sum_{i=1}^n Y_i - \sum_{i=1}^n X_{1i} Y_i - \sum_{i=1}^n X_{2,i} Y_i - ... - \sum_{i=1}^n X_{K-2,i} Y_i}{1 - \bar{X}_1 - \bar{X}_2 - ... - \bar{X}_{K-2}}\\
&= n \bar{Y}_{K-1}\bar{X}_{K-1} - n \bar{X}_{K-1}
\frac{\bar{Y} - \bar{X}_1 \bar{Y}_1 - \bar{X}_2 \bar{Y}_2 - ... - \bar{X}_{K-2} \bar{Y}_{K-2}}{1 - \bar{X}_1 - \bar{X}_2 - ... - \bar{X}_{K-2}} \qquad ... (*)
\end{aligned}
X ~ K − 2 ⊤ Y = i = 1 ∑ n ( X K − 1 , i − X ˉ K − 1 1 − X ˉ 1 − X ˉ 2 − ... − X ˉ K − 2 1 − X 1 i − X 2 i − ... − X K − 2 , i ) Y i = i = 1 ∑ n X K − 1 , i Y i − X ˉ K − 1 1 − X ˉ 1 − X ˉ 2 − ... − X ˉ K − 2 ∑ i = 1 n Y i − ∑ i = 1 n X 1 i Y i − ∑ i = 1 n X 2 , i Y i − ... − ∑ i = 1 n X K − 2 , i Y i = n Y ˉ K − 1 X ˉ K − 1 − n X ˉ K − 1 1 − X ˉ 1 − X ˉ 2 − ... − X ˉ K − 2 Y ˉ − X ˉ 1 Y ˉ 1 − X ˉ 2 Y ˉ 2 − ... − X ˉ K − 2 Y ˉ K − 2 ... ( ∗ )
ここで、Y ˉ \bar{Y} Y ˉ は Y Y Y のサンプル平均 Y ˉ = 1 n ∑ i = 1 n Y i \bar{Y} = \frac{1}{n}\sum_{i=1}^n Y_i Y ˉ = n 1 ∑ i = 1 n Y i であり、また (*) では以下の関係式を用いた:
∑ i = 1 n X k i Y i = n ( 1 n ∑ i = 1 n X k i ) ( 1 ∑ i = 1 n X k i ∑ i = 1 n X k i Y i ) = n X ˉ k Y ˉ k .
\begin{aligned}
\sum_{i=1}^n X_{ki} Y_i
&= n \left(\frac{1}{n} \sum_{i=1}^n X_{ki}\right) \left( \frac{1}{\sum_{i=1}^n X_{ki}}\sum_{i=1}^n X_{ki} Y_i \right)\\
&= n \bar{X}_k \bar{Y}_k.
\end{aligned}
i = 1 ∑ n X ki Y i = n ( n 1 i = 1 ∑ n X ki ) ( ∑ i = 1 n X ki 1 i = 1 ∑ n X ki Y i ) = n X ˉ k Y ˉ k .
以上から、
β ^ K − 1 = ( X ~ K − 2 ⊤ X ~ K − 2 ) − 1 X ~ K − 2 ⊤ Y = 1 − X ˉ 1 − X ˉ 2 − . . . − X ˉ K − 2 1 − X ˉ 1 − X ˉ 2 − . . . − X ˉ K − 1 Y ˉ K − 1 − Y ˉ − X ˉ 1 Y ˉ 1 − X ˉ 2 Y ˉ 2 − . . . − X ˉ K − 2 Y ˉ K − 2 1 − X ˉ 1 − X ˉ 2 − . . . − X ˉ K − 1 = 1 − X ˉ 1 − X ˉ 2 − . . . − X ˉ K − 2 1 − X ˉ 1 − X ˉ 2 − . . . − X ˉ K − 1 Y ˉ K − 1 − X ˉ K − 1 Y ˉ K − 1 1 − X ˉ 1 − X ˉ 2 − . . . − X ˉ K − 1 + X ˉ K − 1 Y ˉ K − 1 1 − X ˉ 1 − X ˉ 2 − . . . − X ˉ K − 1 − Y ˉ − X ˉ 1 Y ˉ 1 − X ˉ 2 Y ˉ 2 − . . . − X ˉ K − 2 Y ˉ K − 2 1 − X ˉ 1 − X ˉ 2 − . . . − X ˉ K − 1 = Y ˉ K − 1 − Y ˉ − X ˉ 1 Y ˉ 1 − X ˉ 2 Y ˉ 2 − . . . − X ˉ K − 2 Y ˉ K − 2 − X ˉ K − 1 Y ˉ K − 1 1 − X ˉ 1 − X ˉ 2 − . . . − X ˉ K − 1 = Y ˉ K − 1 − Y ˉ K
\begin{aligned}
\hat{\beta}_{K-1}
&= (\tilde{\boldsymbol{X}}_{K-2}^\top \tilde{\boldsymbol{X}}_{K-2})^{-1} \tilde{\boldsymbol{X}}_{K-2}^\top \boldsymbol{Y}\\
&= \frac{1 - \bar{X}_1 - \bar{X}_2 - ... - \bar{X}_{K-2}}{1 - \bar{X}_1 - \bar{X}_2 - ... - \bar{X}_{K-1}} \bar{Y}_{K-1}
- \frac{\bar{Y} - \bar{X}_1 \bar{Y}_1 - \bar{X}_2 \bar{Y}_2 - ... - \bar{X}_{K-2} \bar{Y}_{K-2}}{1 - \bar{X}_1 - \bar{X}_2 - ... - \bar{X}_{K-1}}\\
&= \frac{1 - \bar{X}_1 - \bar{X}_2 - ... - \bar{X}_{K-2}}{1 - \bar{X}_1 - \bar{X}_2 - ... - \bar{X}_{K-1}} \bar{Y}_{K-1} - \frac{\bar{X}_{K-1} \bar{Y}_{K-1}}{1 - \bar{X}_1 - \bar{X}_2 - ... - \bar{X}_{K-1}}\\
&\qquad + \frac{\bar{X}_{K-1} \bar{Y}_{K-1}}{1 - \bar{X}_1 - \bar{X}_2 - ... - \bar{X}_{K-1}} - \frac{\bar{Y} - \bar{X}_1 \bar{Y}_1 - \bar{X}_2 \bar{Y}_2 - ... - \bar{X}_{K-2} \bar{Y}_{K-2}}{1 - \bar{X}_1 - \bar{X}_2 - ... - \bar{X}_{K-1}}\\
&= \bar{Y}_{K-1} - \frac{\bar{Y} - \bar{X}_1 \bar{Y}_1 - \bar{X}_2 \bar{Y}_2 - ... - \bar{X}_{K-2} \bar{Y}_{K-2} - \bar{X}_{K-1} \bar{Y}_{K-1}}{1 - \bar{X}_1 - \bar{X}_2 - ... - \bar{X}_{K-1}}\\
&= \bar{Y}_{K-1} - \bar{Y}_K
\end{aligned}
β ^ K − 1 = ( X ~ K − 2 ⊤ X ~ K − 2 ) − 1 X ~ K − 2 ⊤ Y = 1 − X ˉ 1 − X ˉ 2 − ... − X ˉ K − 1 1 − X ˉ 1 − X ˉ 2 − ... − X ˉ K − 2 Y ˉ K − 1 − 1 − X ˉ 1 − X ˉ 2 − ... − X ˉ K − 1 Y ˉ − X ˉ 1 Y ˉ 1 − X ˉ 2 Y ˉ 2 − ... − X ˉ K − 2 Y ˉ K − 2 = 1 − X ˉ 1 − X ˉ 2 − ... − X ˉ K − 1 1 − X ˉ 1 − X ˉ 2 − ... − X ˉ K − 2 Y ˉ K − 1 − 1 − X ˉ 1 − X ˉ 2 − ... − X ˉ K − 1 X ˉ K − 1 Y ˉ K − 1 + 1 − X ˉ 1 − X ˉ 2 − ... − X ˉ K − 1 X ˉ K − 1 Y ˉ K − 1 − 1 − X ˉ 1 − X ˉ 2 − ... − X ˉ K − 1 Y ˉ − X ˉ 1 Y ˉ 1 − X ˉ 2 Y ˉ 2 − ... − X ˉ K − 2 Y ˉ K − 2 = Y ˉ K − 1 − 1 − X ˉ 1 − X ˉ 2 − ... − X ˉ K − 1 Y ˉ − X ˉ 1 Y ˉ 1 − X ˉ 2 Y ˉ 2 − ... − X ˉ K − 2 Y ˉ K − 2 − X ˉ K − 1 Y ˉ K − 1 = Y ˉ K − 1 − Y ˉ K
が示された。
なお、最後の行の式変換では、以下の関係式を用いた:
Y ˉ = ∑ k = 1 K X ˉ k Y ˉ k , ∑ k = 1 K X ˉ k = 1.
\bar{Y} = \sum_{k=1}^K \bar{X}_k \bar{Y}_k, \quad \sum_{k=1}^K \bar{X}_k = 1.
Y ˉ = k = 1 ∑ K X ˉ k Y ˉ k , k = 1 ∑ K X ˉ k = 1.
K-1 番目以外の係数の推定
β ^ 1 , β ^ 2 , . . . , β ^ K − 2 \hat{\beta}_1, \hat{\beta}_2, ..., \hat{\beta}_{K-2} β ^ 1 , β ^ 2 , ... , β ^ K − 2 についても上記と同様の手順で示すことができ、
β ^ k = Y ˉ k − Y ˉ K
\hat{\beta}_k = \bar{Y}_k - \bar{Y}_K
β ^ k = Y ˉ k − Y ˉ K
であることが示される。
また、切片 β ^ 0 \hat{\beta}_0 β ^ 0 については以下のように求める:
β ^ 0 = Y ˉ − β ^ 1 X ˉ 1 − β ^ 1 X ˉ 2 − . . . − β ^ K − 1 X ˉ K − 1 = ∑ k = 1 K X ˉ k Y ˉ k − ∑ k = 1 K − 1 ( Y ˉ k − Y ˉ K ) X ˉ k ∵ Y ˉ = ∑ k = 1 K X ˉ k Y ˉ k = X ˉ K Y ˉ K + Y ˉ K ∑ k = 1 K − 1 X ˉ k = X ˉ K Y ˉ K + Y ˉ K ( 1 − X ˉ K Y ˉ K ) ∵ ∑ k = 1 K X ˉ k = 1 = Y ˉ K
\begin{aligned}
\hat{\beta}_0 &= \bar{Y} - \hat{\beta}_1 \bar{X}_1 - \hat{\beta}_1 \bar{X}_2 - ... - \hat{\beta}_{K-1} \bar{X}_{K-1}\\
&= \sum_{k=1}^{K} \bar{X}_k \bar{Y}_k - \sum_{k=1}^{K-1} (\bar{Y}_k - \bar{Y}_K) \bar{X}_k \qquad \because \bar{Y} = \sum_{k=1}^{K} \bar{X}_k \bar{Y}_k\\
&= \bar{X}_K \bar{Y}_K + \bar{Y}_K \sum_{k=1}^{K-1} \bar{X}_k\\
&= \bar{X}_K \bar{Y}_K + \bar{Y}_K (1 - \bar{X}_K \bar{Y}_K) \qquad \because \sum_{k=1}^{K} \bar{X}_k = 1 \\
&= \bar{Y}_K
\end{aligned}
β ^ 0 = Y ˉ − β ^ 1 X ˉ 1 − β ^ 1 X ˉ 2 − ... − β ^ K − 1 X ˉ K − 1 = k = 1 ∑ K X ˉ k Y ˉ k − k = 1 ∑ K − 1 ( Y ˉ k − Y ˉ K ) X ˉ k ∵ Y ˉ = k = 1 ∑ K X ˉ k Y ˉ k = X ˉ K Y ˉ K + Y ˉ K k = 1 ∑ K − 1 X ˉ k = X ˉ K Y ˉ K + Y ˉ K ( 1 − X ˉ K Y ˉ K ) ∵ k = 1 ∑ K X ˉ k = 1 = Y ˉ K
Discussion