📗
主成分分析を自力で導出する

2024/10/03に公開
機械学習
 はじめにhttps://zenn.dev/asap/articles/2269cd74c5ddc2

先日、分散共分散行列についての魅力を思いのままに殴り書きしたポエムを公開しましたが、その中で主成分分析（PCA）に関しては、最後に雑に触れただけでした。

今回は主成分分析に絞って、どういう流れで、「分散共分散行列の固有値問題を解くこと」=「主成分分析」となったのかを数式で１から説明できればと思います。
1軸目だけでなく、kkk軸に一般化して最後まで説明している記事はあまりないと思うので、参考になれば幸いです。
主に下記の動画・書籍を参考にしました。

特に下の書籍は、線形代数の解説の中で行列から主成分分析・ラグランジュの未定乗数法などまで、今回の記事で利用している道具のほとんどを勉強することができるため、おすすめです！
主成分分析(PCA)の気持ち

妥協しないデータ分析のための 微積分+線形代数入門

 主成分分析とは主成分分析（PCA,Principal Component Analysis）は、次元削減技術の一つです。

次元を削減するということは、例えば2次元で表現されるようなデータを1次元で表現することになるので、基本的に情報が失われます。

この時に失われる情報を最小限に抑えて、なるべく多くの情報を保持したまま、次元を削減するための技術になります。
次元を削減することで、データ分析や機械学習において扱いやすくなるため、重宝されている技術になります。

 導出では、主成分分析を導出してみたいと思います。

はじめは、2次元のデータから1次元のデータに圧縮することを考えます。
軸となるアイデアは、「失われる情報を最小限にする」です。

 「分散を最大にする方向に軸を引く」の説明
例えば、上記のようなデータの分布を考えます。

データの意味はなんでも良いです。例えば今回は横軸に身長、縦軸に体重とでもみなしましょう。

（横軸をxxx軸、縦軸をyyy軸とします）
そうすると、ある14名の（身長,体重）のペアをプロットしたデータになります。

上記のデータを見ると身長が高くなるほど、体重が高くなるような相関のある分布になります。
ここで例えば、下記の赤線のような軸を追加することを考えます。この軸をzzz軸と呼びます。
続いて、主成分分析では、2次元のデータを1次元に圧縮するために、圧縮先の次元の軸を考えます。

このとき、下記の画像の赤線のように、データの重心（平均）の位置を通る、zzz軸を考えることができ、2次元のデータを1次元に圧縮するというのは、追加したzzz軸にデータ点から垂線を下ろした点が、次元削減後の点になることがわかると思います。

では、どういうzzz軸を引けば、次元削減後に「失われる情報を最小限にする」ことができるでしょうか。
ここで、ある1点のデータ点とzzz軸、前データの平均点に着目すると、下記の図のような関係を考えることができます。
図中の赤点は、全データ（14点）の平均（重心）を表します。

（逆にいうと、zzz軸は重心を通る軸です）
すると、重心とデータ点とzzz軸上の次元削減後の点は直角三角形を作るので、三平方の定理が成り立ちます。
c2=a2+b2c^2 = a^2 + b^2c2=a2+b2今回は、ある一つの点に対して、注目しましたが、上記の関係性はすべてのデータ点にて成立するため、下記が成立するはずです
1N∑i=1Nci2=1N∑i=1Nai2+1N∑i=1Nbi2\frac{1}{N} \sum_{i=1}^{N} c_i^2 = \frac{1}{N} \sum_{i=1}^{N} a_i^2 + \frac{1}{N} \sum_{i=1}^{N} b_i^2N1​i=1∑N​ci2​=N1​i=1∑N​ai2​+N1​i=1∑N​bi2​ここでNNNはサンプルサイズであり、上の図の例ではN=14N=14N=14です。

ここで、cic_ici​は、標本平均とサンプルとの距離になるため、zzz軸をどうひくかに影響されず、常に一定の値になります。
続いて、bib_ibi​は「次元削減後に失われる情報」になります。

次元削減後はzzz軸上のデータの位置の情報しか持たないため、zzz軸と直行する成分は失われます。
したがって、この∑i=1Nbi2\sum_{i=1}^{N} b_i^2∑i=1N​bi2​を可能な限り最小にすることで、次元削減後に「失われる情報を最小限にする」ことができます。
そうするには、cic_ici​が固定なので、1N∑i=1Nai2\frac{1}{N} \sum_{i=1}^{N}a_i^2N1​∑i=1N​ai2​を最大化する必要があります。
1N∑i=1nai2\frac{1}{N} \sum_{i=1}^{n} a_i^2N1​∑i=1n​ai2​というのは、次元削減後のサンプル点と全サンプルの重心（平均）との距離の2乗の平均になります。

数式で書くと下記のようになります。
1N∑i=1nai2=1N∑i=114(Xi−Xˉ)2\frac{1}{N} \sum_{i=1}^{n} a_i^2 = \frac{1}{N} \sum_{i=1}^{14} (X_i - \bar{X})^2N1​i=1∑n​ai2​=N1​i=1∑14​(Xi​−Xˉ)2ただし、XiX_iXi​はデータ点、Xˉ\bar{X}Xˉはデータ点の平均を示します。

これは、標本分散の定義式と一致します。
つまり、次元削減後に失われる情報を最小限にするためには、次元削減後のデータの分散が最大になるようにzzz軸を引けば良いことがわかります。

 式変形（準備）
 記号の導入では、分散を最大化する方向のベクトルを数式で求めていきます。

そのための準備として、数式で取り扱えるように、図に対して文字をおいていきます。
まず、各データ点は下記のように表します。
S={X1,X2,......,X14}S=\{X_1,X_2,......,X_{14}\}S={X1​,X2​,......,X14​}加えて、それぞれの要素はさらに下記のようなベクトルを表します。
Xi=(xiyi)
X_i = 
\begin{pmatrix}
x_i \\
y_i 
\end{pmatrix}
Xi​=(xi​yi​​)また、各次元ごとの要素の集合を下記のように定義する

X′={x1,x2,......,x14}X'=\{x_1,x_2,......,x_{14}\}X′={x1​,x2​,......,x14​}
Y′={y1,y2,......,y14}Y'=\{y_1,y_2,......,y_{14}\}Y′={y1​,y2​,......,y14​}
さらに、次元削減に利用するzzz軸の基底ベクトルをvvvとします。

vvvは下記の要素を持ち、このvvvを見つけることが目標です。
v=(xvyv)
v = 
\begin{pmatrix}
x_v \\
y_v 
\end{pmatrix}
v=(xv​yv​​)また、次元削減後のデータ点を下記のように表します。

R={Z1,Z2,......,Z14}R=\{Z_1,Z_2,......,Z_{14}\}R={Z1​,Z2​,......,Z14​}
各要素は、xy平面上で、下記の要素を持ちます。
Zi=(zixziy)
Z_i = 
\begin{pmatrix}
z_{ix} \\
z_{iy} 
\end{pmatrix}
Zi​=(zix​ziy​​)
 中央化続いて、これまで記載されていたデータの分布を下記のように並行移動して、重心を原点に持ってきます。

これを中央化といい、データの平均が原点になります。
このとき、データの平均が原点であるという条件を付け加えることで、変換前と同値な書き換えになります。
このように変換することで、最大化したい分散を平均からの距離ではなく、原点からの距離として考えることができるので、計算が簡単になります。

 式変形（1軸目を考える）
 vを含む式に変形するでは、実際に式変形をしていきます。最大化したいのは分散なので下記の形からスタートしていきます。

まずは、求める分散は、中央化により、次元削減後の点ZiZ_iZi​と原点との距離とかけるので下記のようになります。
1N∑i=1Nai2=1N∑i=1NZi2
\frac{1}{N} \sum_{i=1}^{N} a_i^2 = \frac{1}{N} \sum_{i=1}^{N} Z_i^2
N1​i=1∑N​ai2​=N1​i=1∑N​Zi2​続いて、次元削減後の点ZiZ_iZi​は次元削減前の点XiX_iXi​を、zzz軸の基底ベクトルvvvに正射影したものになるので、条件として∣v∣2=1\lvert v \rvert ^2 = 1∣v∣2=1を加えると、ZiZ_iZi​はvvvとXiX_iXi​の内積として考えられるため、下記のように変形できます。
1N∑i=1NZi2=1N∑i=1N(Xitv)2
\frac{1}{N} \sum_{i=1}^{N} Z_i^2
= \frac{1}{N} \sum_{i=1}^{N} (X_i^t v)^2
N1​i=1∑N​Zi2​=N1​i=1∑N​(Xit​v)2ここからは2乗を展開しながら式を整理します。
1N∑i=1N(Xitv)2=1N∑i=1N(Xitv)t(Xitv)=1N∑i=1N(vtXi)(Xitv)=1N∑i=1NvtXiXitv=vt(1N∑i=1NXiXit)v=vtΣv
\frac{1}{N} \sum_{i=1}^{N} (X_i^t v)^2
= \frac{1}{N} \sum_{i=1}^{N} (X_i^t v)^t(X_i^t v) \\
= \frac{1}{N} \sum_{i=1}^{N} (v^t X_i)(X_i^t v) \\
= \frac{1}{N} \sum_{i=1}^{N} v^t X_i X_i^t v \\
= v^t (\frac{1}{N}\sum_{i=1}^{N}X_i X_i^t) v \\
= v^t \Sigma v
N1​i=1∑N​(Xit​v)2=N1​i=1∑N​(Xit​v)t(Xit​v)=N1​i=1∑N​(vtXi​)(Xit​v)=N1​i=1∑N​vtXi​Xit​v=vt(N1​i=1∑N​Xi​Xit​)v=vtΣvただし、
Σ=1N∑i=1NXiXit\Sigma = \frac{1}{N}\sum_{i=1}^{N}X_i X_i^tΣ=N1​i=1∑N​Xi​Xit​である。
ここで、
Σ=1N∑i=1NXiXit=(1N∑i=1Nxi21N∑i=1Nxiyi1N∑i=1Nyixi1N∑i=1Nyi2)
\Sigma = \frac{1}{N}\sum_{i=1}^{N}X_i X_i^t 
=\begin{pmatrix}
\frac{1}{N}\sum_{i=1}^{N}x_i^2 & \frac{1}{N}\sum_{i=1}^{N}x_iy_i\\
\frac{1}{N}\sum_{i=1}^{N}y_ix_i & \frac{1}{N}\sum_{i=1}^{N}y_i^2
\end{pmatrix}
Σ=N1​i=1∑N​Xi​Xit​=(N1​∑i=1N​xi2​N1​∑i=1N​yi​xi​​N1​∑i=1N​xi​yi​N1​∑i=1N​yi2​​)となります。さらに今回中央化をしているため、標本平均は0です。したがって、上記の式は下記のようになります。
Σ=(1N∑i=1Nxi21N∑i=1Nxiyi1N∑i=1Nyixi1N∑i=1Nyi2)
\Sigma
=\begin{pmatrix}
\frac{1}{N}\sum_{i=1}^{N}x_i^2 & \frac{1}{N}\sum_{i=1}^{N}x_iy_i\\
\frac{1}{N}\sum_{i=1}^{N}y_ix_i & \frac{1}{N}\sum_{i=1}^{N}y_i^2
\end{pmatrix}
Σ=(N1​∑i=1N​xi2​N1​∑i=1N​yi​xi​​N1​∑i=1N​xi​yi​N1​∑i=1N​yi2​​)=(Var(X′)Cov(X′,Y′)Cov(X′,Y′)Var(Y′))
= \begin{pmatrix}
\text{Var}(X') & \text{Cov}(X', Y')\\
\text{Cov}(X', Y') & \text{Var}(Y')
\end{pmatrix}
=(Var(X′)Cov(X′,Y′)​Cov(X′,Y′)Var(Y′)​)したがって、これはX′X'X′とY′Y'Y′の二つの次元における分散共分散行列の定義式と一致するため、Σ\SigmaΣは分散共分散行列です。

 ラグランジュの未定乗数法ここまでで、解きたいのは、

∣v∣2=1\lvert v \rvert ^2 = 1∣v∣2=1の条件下での、vtΣvv^t \Sigma vvtΣvを最大にするvvvになります。
このような制約付き最適化問題を解く際は、ラグランジュの未定乗数法が利用できます。
まず、ラグランジュ乗数をλ\lambdaλとして、目的関数f(v)=vtΣvf(v) = v^t \Sigma vf(v)=vtΣvと制約g(v)=vtv−1=0g(v) = v^t v - 1 = 0g(v)=vtv−1=0を利用して、ラグランジュ関数L(v,λ)\mathcal{L}(v, \lambda)L(v,λ)を次のように定義します。
L(v,λ)=vtΣv−λ(vtv−1)\mathcal{L}(v, \lambda) = v^t \Sigma v - \lambda (v^t v - 1)L(v,λ)=vtΣv−λ(vtv−1)ここでラグランジュの未定乗数法により、下記を解くことで分散を最大にする基底ベクトルvvvを得ることができます。
∂L∂v=0\frac{\partial \mathcal{L}}{\partial v} =  0∂v∂L​=0∂L∂λ=0\frac{\partial \mathcal{L}}{\partial \lambda} =  0∂λ∂L​=0上記の条件により下記が成立します。
∂L∂v=2Σv−2λv=0\frac{\partial \mathcal{L}}{\partial v} = 2 \Sigma v - 2\lambda v = 0∂v∂L​=2Σv−2λv=0Σv=λv\Sigma v = \lambda vΣv=λvまた、

∂L∂λ=−(vtv−1)=0\frac{\partial \mathcal{L}}{\partial \lambda} = -(v^t v - 1) = 0∂λ∂L​=−(vtv−1)=0
vtv=1v^t v = 1vtv=1
です。
ここで、二つ目の条件は、制約条件と同一のため無視して大丈夫ですが、一つ目の条件Σv=λv\Sigma v = \lambda vΣv=λvに着目すると、これは分散共分散行列の固有値問題になっていることがわかります。
したがって、前回の記事で解説した通り、分散共分散行列の固有値分解を解くことこそが、主成分分析による分散を最大化する基底ベクトルvvvを見つけることであるということが説明できました。
!ラグランジュの未定乗数法で得られる値は、最大値だけではなく、制約条件下における最大値、最小値を含む、極値（鞍点も含む）を得ることができます。

したがって、上記の式を解いて得られるλ\lambdaλの全てが最大値というわけではないですが、最も大きいλ\lambdaλに対応する基底ベクトルvvvこそが、分散を最大にする基底ベクトルになります。
以降、それの解説をします。

（λ\lambdaλに対して、必ず対応する基底ベクトルvvvが存在することの説明は、前回の記事をご覧ください。）

 λの意味では、この固有値問題を解いて得られるλ\lambdaλとは何者なのでしょうか。

結論から言うと、求めたい分散の値そのものになります。
では、説明していきます。
まず、ラグランジュの未定乗数法の一つ目の条件により、下記が成立しています。
Σv=λv\Sigma v = \lambda vΣv=λvここに、両辺の最初の項にvtv^tvtの変換を適用させることを考えます。
Σv=λv　vtΣv=vtλv　vtΣv=λvtv　vtΣv=λ　
\Sigma v = \lambda v　\\
v^t \Sigma v = v^t \lambda v　\\
v^t \Sigma v = \lambda v^t v　\\
v^t \Sigma v = \lambda　
Σv=λv　vtΣv=vtλv　vtΣv=λvtv　vtΣv=λ　と変形させることができます。最後の行の式変形は、制約条件∣v∣2=1\lvert v \rvert ^2 = 1∣v∣2=1を利用しています。
このとき、式の左辺は、今回最大化したい分散の値になっていることがわかります。

したがって、ラグランジュの未定乗数法で得られるラグランジュ定数λ\lambdaλは分散そのものを表していることが説明できました。

 2軸目の選定
 2軸目が満たすべき条件さて、実は先ほど得られた固有値問題を解くと複数のλ\lambdaλの値が解になり、それら全てに対して固有ベクトルvvvが存在することがわかっています。
実際、今回のような2次元のデータで考えた場合、λ\lambdaλは最大2つの解を持ちます。N次元のデータの場合は最大N個の解を持ちます。
先ほどの節においてλ\lambdaλは分散そのものであると言う話をしました。したがって主成分分析における分散を最大にする軸（基底ベクトル）を決定するためには、λ\lambdaλが最も大きい時に対応する基底ベクトルvvvを選ぶことによって達成されます。

データが2次元の場合はそれで次元削減が完了しますが、3次元や4次元の場合はどうでしょうか・・・
2軸目をどのように選ぶべきかわからないですよね。
結論を言うと、2軸目は固有値問題を解いた際の、2番目に大きいλ\lambdaλに対応する固有ベクトルを基底ベクトルとした軸を選ぶことで、次に分散を最大化できる軸を引くことができます。

3番目も4番目も同様に、N次元のデータであれば、最大N個のλ\lambdaλと固有ベクトルの組が得られるため、λ\lambdaλが大きい順に固有ベクトルは分散を最大にする軸になります。
では、上記についても説明しましょう。
まず、1軸目を与えるλ\lambdaλと固有ベクトルの組みが(λ1,v1)(\lambda_1, v_1)(λ1​,v1​)で得られているものとします。

このとき2軸目の条件としては、1軸目と「直交」していて、かつ分散を最大にする軸である必要があります。
この直交というのが重要です。例えばxyzxyzxyz空間のグラフを想像していただくとわかりますが、それぞれ3つの軸は全て90度で交わっていると思います。これが直交という概念です。

今回も、新たな軸を作る際に、これまでの全ての軸と直交することを追加の条件として加えます。
ここで2軸目に相当する基底ベクトルv2v_2v2​を考えると、直交の条件は下記になります。
v1tv2=0v_1^t v_2 = 0v1t​v2​=0また1軸目と同様に下記の条件も存在します。
v2tv2=1v_2^t v_2 = 1v2t​v2​=1
 ラグランジュの未定乗数法を再度利用では、この2つの条件下での分散最大化問題を解くために、改めてラグランジュの未定乗数法を利用します。
L(v2,λ2,μ)=v2tΣv2−λ2(v2tv2−1)−μv1tv2\mathcal{L}(v_2, \lambda_2, \mu) = v_2^t \Sigma v_2 - \lambda_2 (v_2^t v_2 - 1) - \mu v_1^t v_2L(v2​,λ2​,μ)=v2t​Σv2​−λ2​(v2t​v2​−1)−μv1t​v2​ここで、λ2\lambda_2λ2​とμ\muμがラグランジュ定数です。
そして、分散v2tΣv2v_2^t \Sigma v_2v2t​Σv2​を制約下で最大にするには、下記を満たすvvvを求めます。
∂L∂v2=0\frac{\partial \mathcal{L}}{\partial v_2} = 0∂v2​∂L​=0∂L∂λ2=0\frac{\partial \mathcal{L}}{\partial \lambda_2} = 0∂λ2​∂L​=0∂L∂μ=0\frac{\partial \mathcal{L}}{\partial \mu} = 0∂μ∂L​=0上記より、下記が成立します。
∂L∂v2=2Σv2−2λ2v2−μv1=0
\frac{\partial \mathcal{L}}{\partial v_2} = 2 \Sigma v_2 - 2 \lambda_2 v_2 - \mu v_1 = 0
∂v2​∂L​=2Σv2​−2λ2​v2​−μv1​=0したがって、

Σv2=λ2v2+μ2v1\Sigma v_2 = \lambda_2 v_2 + \frac{\mu}{2} v_1Σv2​=λ2​v2​+2μ​v1​
また、

∂L∂λ2=−(v2tv2−1)=0\frac{\partial \mathcal{L}}{\partial \lambda_2} = -(v_2^t v_2 - 1) = 0∂λ2​∂L​=−(v2t​v2​−1)=0
∂L∂μ=−v1tv2=0\frac{\partial \mathcal{L}}{\partial \mu} = -v_1^t v_2 = 0∂μ∂L​=−v1t​v2​=0

です。
下2つは制約条件をあらためて記述しているだけなので、無視して良いです。問題は一番上の式です。
Σv2=λ2v2+μ2v1\Sigma v_2 = \lambda_2 v_2 + \frac{\mu}{2} v_1Σv2​=λ2​v2​+2μ​v1​
 固有値問題に帰着させるΣv2=λ2v2+μ2v1\Sigma v_2 = \lambda_2 v_2 + \frac{\mu}{2} v_1Σv2​=λ2​v2​+2μ​v1​この式の問題は、純粋な固有値問題になっていないため、解けないことです。しかしながら、ここに制約条件v1tv2=0v_1^t v_2 = 0v1t​v2​=0が効いてきます。
まず、両辺にv1tv_1^tv1t​を掛けます
v1tΣv2=v1t(λ2v2+μ2v1)v_1^t \Sigma v_2 = v_1^t(\lambda_2 v_2 + \frac{\mu}{2} v_1)v1t​Σv2​=v1t​(λ2​v2​+2μ​v1​)ここで一旦左辺から分析します。
左辺v1tΣv2v_1^t \Sigma v_2v1t​Σv2​は、下記のように変形できます。
v1tΣv2=(Σtv1)tv2=(Σv1)tv2=(λ1v1)tv2=λiv1tv2=0
v_1^t \Sigma v_2 = (\Sigma^t v_1)^t  v_2 = (\Sigma v_1)^t v_2 = (\lambda_1 v_1)^t v_2 = \lambda_i v_1^t v_2 = 0
v1t​Σv2​=(Σtv1​)tv2​=(Σv1​)tv2​=(λ1​v1​)tv2​=λi​v1t​v2​=0ここでは、分散共分散行列Σ\SigmaΣが対称行列であるためΣt=Σ\Sigma^t = \SigmaΣt=Σであることと、制約（直交）条件v1tv2=0v_1^t v_2 = 0v1t​v2​=0を利用しています。
したがって、左辺は0であることがわかりました。
続いて右辺を展開すると、
v1t(λ2v2+μ2v1)=λ2v1tv2+μ2v1tv1v_1^t(\lambda_2 v_2 + \frac{\mu}{2} v_1) = \lambda_2 v_1^t v_2 + \frac{\mu}{2} v_1^t v_1v1t​(λ2​v2​+2μ​v1​)=λ2​v1t​v2​+2μ​v1t​v1​となり、ここでも制約条件により、
λ2v1tv2+μ2v1tv1=μ2\lambda_2 v_1^t v_2 + \frac{\mu}{2} v_1^t v_1 = \frac{\mu}{2}λ2​v1t​v2​+2μ​v1t​v1​=2μ​となります。

したがって、左辺が0であったことから

0=μ20=\frac{\mu}{2}0=2μ​
μ=0\mu = 0μ=0

となることがわかりました。
ここで、今求めたことにより、ラグランジュの未定乗数法で得られた最初の条件式は、
Σv2=λ2v2+μ2v1\Sigma v_2 = \lambda_2 v_2 + \frac{\mu}{2} v_1Σv2​=λ2​v2​+2μ​v1​Σv2=λ2v2\Sigma v_2 = \lambda_2 v_2Σv2​=λ2​v2​とできるため、完全に1軸目と同様の式に変わりました。

1軸目と異なるλ\lambdaλを選定する必要があるため、2番目に大きいλ\lambdaλを選定することで2軸目を決定することができます。

 k軸目を考えるでは、2次元の論証を参考にして、kkk軸目に拡張します。

 k軸目（の固有ベクトル）が満たす条件問題設定を整理します。

まず、標本全体SSSは下記とします。
S={X1,X2,......,XN}S=\{X_1,X_2,......,X_{N}\}S={X1​,X2​,......,XN​}NNNはサンプルサイズです。
このとき、各サンプルはnnn次元のデータを考え、k∈N,1≤k≤nk \in \mathbb{N}, \quad 1 \leq k \leq nk∈N,1≤k≤nを満たすkkk軸目をどのように得るかを考えます。
すなわち、あるインデックスiiiにおけるサンプルは、下記のように表記できます。
Xi=(xi1xi2⋮xin)fori=1,2,…,N
X_i = \begin{pmatrix}
x_{i1} \\
x_{i2} \\
\vdots \\
x_{in}
\end{pmatrix} \quad \text{for} \quad i = 1, 2, \dots, N
Xi​=​xi1​xi2​⋮xin​​​fori=1,2,…,N!2次元で考えていたときは、次元の表記にxxxとyyyを使っていましたが、nnn次元で考える必要があるため、上記のような表記に変更しています。
このとき、kkk軸目に対応する固有ベクトルvkv_kvk​は、k−1k-1k−1番目までのすべての固有ベクトルと直交しており、さらに∣vk∣2=1\lvert v_k \rvert ^2 = 1∣vk​∣2=1である必要があります。
これを制約条件として下記のように記載します。
g0(v)=vktvk−1=0g_0(v) = v_k^t v_k - 1 = 0g0​(v)=vkt​vk​−1=0gi(v)=vitvk=0fori=1,2,…,k−1g_i(v) = v_i^t v_k = 0 \quad \text{for} \quad i = 1, 2, \dots, k-1 gi​(v)=vit​vk​=0fori=1,2,…,k−1
 ラグランジュの未定乗数法を利用するでは、このkkk個の制約条件下での分散vktΣvkv_k^t \Sigma v_kvkt​Σvk​の最大化問題を解くために、ラグランジュの未定乗数法を再度利用します。
L(v2,λk,μ)=vktΣvk−λk(vktvk−1)−∑i=1k−1μivitvk\mathcal{L}(v_2, \lambda_k, \mathbf{\mu}) = v_k^t \Sigma v_k - \lambda_k (v_k^t v_k - 1) - \sum_{i=1}^{k-1}{\mu_i v_i^t v_k}L(v2​,λk​,μ)=vkt​Σvk​−λk​(vkt​vk​−1)−i=1∑k−1​μi​vit​vk​ただし、
μ={μ1,μ2,…,μk−1}\mathbf{\mu} = \{\mu_1, \mu_2, \dots, \mu_{k-1}\}μ={μ1​,μ2​,…,μk−1​}このとき、分散vktΣvkv_k^t \Sigma v_kvkt​Σvk​を制約条件下で最大化するvkv_kvk​は下記を満たします。
∂L∂vk=0\frac{\partial \mathcal{L}}{\partial v_k} = 0∂vk​∂L​=0∂L∂λk=0\frac{\partial \mathcal{L}}{\partial \lambda_k} = 0∂λk​∂L​=0∂L∂μi=0　fori=1,2,…,k−1\frac{\partial \mathcal{L}}{\partial \mu_i} = 0　\quad \text{for} \quad i = 1, 2, \dots, k-1∂μi​∂L​=0　fori=1,2,…,k−1これまでの議論と同様に、下二つの条件は制約条件（g0(v)g_0(v)g0​(v)、gi(v)g_i(v)gi​(v)）を改めて書き下しているだけのため、無視することができ、一番上の条件だけが残ります。
∂L∂vk=2Σvk−2λkvk−∑i=1k−1μivi=0\frac{\partial \mathcal{L}}{\partial v_k} = 2 \Sigma v_k - 2 \lambda_k v_k - \sum_{i=1}^{k-1}{\mu_i v_i} = 0∂vk​∂L​=2Σvk​−2λk​vk​−i=1∑k−1​μi​vi​=0Σvk−λkvk−12∑i=1k−1μivi=0\Sigma v_k - \lambda_k v_k - \frac{1}{2}\sum_{i=1}^{k-1}{\mu_i v_i} = 0Σvk​−λk​vk​−21​i=1∑k−1​μi​vi​=0したがって、

Σvk=λkvk+12∑i=1k−1μivi\Sigma v_k = \lambda_k v_k + \frac{1}{2}\sum_{i=1}^{k-1}{\mu_i v_i}Σvk​=λk​vk​+21​i=1∑k−1​μi​vi​

 固有値問題に帰着させるさて、2軸目の議論と同様に、邪魔なμi\mu_iμi​を消して、固有値問題に帰着させます。
まず、両辺にvltv_l^tvlt​をかけます。

ただし、l=1,2,…,k−1l = 1, 2, \dots, k-1l=1,2,…,k−1となる自然数です。
vltΣvk=vlt(λkvk+12∑i=1k−1μivi)v_l^t \Sigma v_k = v_l^t (\lambda_k v_k + \frac{1}{2}\sum_{i=1}^{k-1}{\mu_i v_i})vlt​Σvk​=vlt​(λk​vk​+21​i=1∑k−1​μi​vi​)左辺に着目すると下記の変形が成立します。
vltΣvk=(Σtvl)tvk=(Σvl)tvk=(λlvl)tvk=λlvltvk=0
v_l^t \Sigma v_k = (\Sigma^t v_l)^t  v_k = (\Sigma v_l)^t v_k = (\lambda_l v_l)^t v_k = \lambda_l v_l^t v_k = 0
vlt​Σvk​=(Σtvl​)tvk​=(Σvl​)tvk​=(λl​vl​)tvk​=λl​vlt​vk​=0分散共分散行列Σ\SigmaΣが対称行列であることと、制約条件（gi(v)g_i(v)gi​(v)）から、

上記の変形は、l=1,2,…,k−1l = 1, 2, \dots, k-1l=1,2,…,k−1のすべてのlllについて成立します。
続いて右辺を変形します。
vlt(λkvk+12∑i=1k−1μivi)=vltλkvk+12vlt∑i=1k−1μivi=λkvltvk+12∑i=1k−1μivltvi
v_l^t (\lambda_k v_k + \frac{1}{2}\sum_{i=1}^{k-1}{\mu_i v_i}) \\
= v_l^t \lambda_k v_k + \frac{1}{2} v_l^t \sum_{i=1}^{k-1}{\mu_i v_i} \\
= \lambda_k v_l^t v_k + \frac{1}{2} \sum_{i=1}^{k-1}{\mu_i v_l^t v_i}
vlt​(λk​vk​+21​i=1∑k−1​μi​vi​)=vlt​λk​vk​+21​vlt​i=1∑k−1​μi​vi​=λk​vlt​vk​+21​i=1∑k−1​μi​vlt​vi​ここで右辺の第1項は、制約条件（gi(v)g_i(v)gi​(v)）から0になります。

（vltvk=0v_l^t v_k = 0vlt​vk​=0）
右辺の第2項に関しては、∑i=1k−1\sum_{i=1}^{k-1}∑i=1k−1​の中身のiiiがlllと等しいときと異なるときで利用する制約条件が変わります。
iiiがlllと等しいときは、制約条件（vltvl=1v_l^t v_l = 1vlt​vl​=1）が適用され、iiiがlllと異なるときは、制約条件（vltvi=0v_l^t v_i = 0vlt​vi​=0）が適用されるため、クロネッカーのデルタδil\delta_{il}δil​を導入すると、下記のように書けます。
λkvltvk+12∑i=1k−1μivltvi=0+12∑i=1k−1μiδil=12μl
\lambda_k v_l^t v_k + \frac{1}{2} \sum_{i=1}^{k-1}{\mu_i v_l^t v_i} \\
= 0 + \frac{1}{2} \sum_{i=1}^{k-1}{\mu_i \delta_{il}} \\
= \frac{1}{2} \mu_l
λk​vlt​vk​+21​i=1∑k−1​μi​vlt​vi​=0+21​i=1∑k−1​μi​δil​=21​μl​!クロネッカーのデルタδil\delta_{il}δil​の定義は下記の通りです。
δij={1if i=j0if i≠j
\delta_{ij} = 
\begin{cases} 
1 & \text{if } i = j \\
0 & \text{if } i \neq j 
\end{cases}
δij​={10​if i=jif i=j​
したがって、左辺が0であるため、
μl=0\mu_l = 0μl​=0となります。
これはとりうる全てのl=1,2,…,k−1l = 1, 2, \dots, k-1l=1,2,…,k−1について成立するため、
Σvk=λkvk+12∑i=1k−1μivi\Sigma v_k = \lambda_k v_k + \frac{1}{2}\sum_{i=1}^{k-1}{\mu_i v_i}Σvk​=λk​vk​+21​i=1∑k−1​μi​vi​Σvk=λkvk\Sigma v_k = \lambda_k v_kΣvk​=λk​vk​と変形でき、単純な固有値問題に帰着させることができました。
これは最初に解いた固有値問題と同一であることがわかります。
したがって、kkk軸目に対応する固有ベクトルvkv_kvk​を選ぶ際には、固有ベクトルvkv_kvk​はそれまでのk−1k-1k−1個の固有ベクトルと直行している必要があるため、固有値問題を解いた場合の、上からkkk番目の固有値λk\lambda_kλk​に対応するvkv_kvk​を基底ベクトルとして選びます。

 結論以上により、各軸において、それまでのすべての軸と直交しながら、その中で分散を最大にする軸を選ぶには、固有値問題を解いた際の固有値λ\lambdaλが大きい順に対応する基底ベクトルを軸に選ぶことで、失う情報を最小限にしながら次元を削減する軸を決定することができます。
!直交の条件を利用することで、μ=0\mu=0μ=0が導出できて、固有値問題に帰着させているため、分散共分散行列の固有値問題を解いて得られる固有ベクトルは、すべて直交することがわかります。

したがって、得られる固有ベクトルを固有値順に選んでいけば、自動的にすべての固有ベクトルが直交した軸を得ることができます。
また、その時の説明では、分散共分散行列が対称行列であるという特徴しか使っていません。

すなわち、逆に言えば、対称行列の固有値問題を解いて得られる固有ベクトルは、すべて直交すると言えます。
話の本筋とはずれますが、これはすごい発見です。

なぜなら直交行列の逆行列は転置行列になることが知られているからです。

すなわち、分散共分散行列などの対称行列を対角化する際に、固有ベクトルを並べた行列の逆行列を計算する必要がありますが、転置するだけで求めることができるというわけです。
非常に便利ですね！

 まとめここまでで、主成分分析に関して、「何を目的に次元削減しているのか」という点からスタートして、実際に何をやっているのかを数式で説明しました。

その中で、前回の記事ではスルーしていた、分散共分散行列と主成分分析の数式での関係を説明できたかなと思います。
特に、kkk軸目まで一般化して説明している記事はあまりないと思いますので、参考になれば幸いです。
ここまで読んでくださってありがとうございました！

 参考文献主成分分析(PCA)の気持ち

妥協しないデータ分析のための 微積分+線形代数入門
Discussion

ログインするとコメントできます