Intrinsic dimension について
はじめに
大規模言語モデル(Large Language Model; LLM)や画像生成系モデル(Diffusion model)などで近年、ユーザー固有の downstream タスクを解かせるための fine-tuning の方法として
Low-Rank Adaptation(LoRA)と呼ばれる手法が人気となっています。この LoRA の手法は低ランク行列を用いて最適化を行うことでパラメータ数を抑えつつ、高精度に fine-tuning できるとしている手法です。先行研究 [1] で議論されている intrinsic dimension にインスピレーションを受けたと紹介されているため、まず Measuring the Intrinsic Dimension of Objective Landscapes をベースに「intrinsic dimension」について調査を行ってみました。
Intrinsic dimension
導入
Measuring the Intrinsic Dimension of Objective Landscapes にて提案されたのが intrinsic dimension であり、本論文では「objective landscape」をよりよく理解するためのツールとして導入されています。
近年の深層学習モデルは膨大な数のパラメータを持っており、高次元空間での最適化に成功したモデルが脚光を浴びている世界となっています。しかしこれまでも何故そのように膨大なパラメータ数を持っていても尚良い精度が出るのか、どんなパラメータ数が効いているのか、本当に必要なパラメータ数はどれくらいなのか、等といった基本的な疑問には回答できていないのが現状だと思います。高次元空間で目的関数がどのような過程を経て最適化されるのか、objective landspace をより理解しようとして intrinsic dimension という考え方が提案されました。
留意点
もしかすると intrinsic dimension は業界の中で当たり前の発想だったりするのかもしれないですが、少なくとも論文を読む中で「なぜ intrinsic dimension を導入したのか?これを見て何が嬉しいのか?」といった疑問には答えていなかったように感じました。この指標を用いればより直接的に効果的なモデル構造を作成できるというものでもなく、かといって高精度なモデルが作成できるというものでもないです[2]。そのため、なぜこんなことをしているのだろうか?という疑問に関しては最後まで明らかにならないということを、留意点として明記しておきます。
考え方
通常のモデルの最適化はそのパラメータ数を
An objective function’s intrinsic dimension measures the minimum number of parameters needed to reach satisfactory solutions to the respective objective (Li et al., 2018). Alternatively, the intrinsic dimension represents the lowest dimensional subspace in which one can optimize the original objective function to within a certain level of approximation error.
と記述されています。
イメージ
部分空間での最適化についてのイメージが Figure.1 に示されているので引用します。ここでは真の最適化問題は
実際に部分空間での最適化を実現するために、以下の表式を導入します:
ここで
の勾配を計算して最適化を行っていくことになります。
実験
ここまでで定義した intrinsic dimension の考え方を用いた各種実験の結果も見ていきたいと思います。ただし
横軸が intrinsic dimension で縦軸が validation acc. です。この図が示しているのは元々のパラメーター数が
まとめ
ランダムに定義した部分空間[4]で最適化を行った場合でも、通常の最適化と遜色ない精度を達成できるということが示されました。intrinsic dimension を指標として使用することでモデルへの理解がより一層深まるとしています。論文の締め(§4. Conclusions and Future directions) では
Further work could also identify better ways of creating subspaces for reparameterization: here we chose random linear subspaces, but one might carefully construct other linear or non-linear subspaces to be even more likely to contain solutions.
future work として部分空間の定義方法についてよりより手法が見つかるだろう。今回はランダムな線形部分空間を選んだが、他の線形または非線形の部分空間を注意深く構築することで、さらに解を含む可能性が高くなるかもしれない。
と議論しており、そもそも部分空間の定義方法については課題があると言っています。これから、intrinsic dimension が何なのか、よりよい部分空間の定義方法などの研究が進んでいくと面白い結果が出てきそうで楽しみです。
参考文献
- Measuring the Intrinsic Dimension of Objective Landscapes
- Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning
- LoRA: Low-Rank Adaptation of Large Language Models
-
Measuring the Intrinsic Dimension of Objective Landscapes, Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning ↩︎
-
LoRAは本手法を元に作成されたらしいが、どれくらい真面目に先行研究として引いているのかは分からない。 ↩︎
-
この辺りはあまり厳密に議論されているような気はしないですが、単純に「
が成り立つようなd<D を\mathbb{R}^d の部分空間だ」としている以上の意味は持っていないと感じました。 ↩︎\mathbb{R}^D -
をランダムに初期化しているという意味であり、特に深い意味はなさそうでした。 ↩︎P
Discussion