🐥
LoRA モデルの微調整のアプローチ
Low-Rank Adaptation、通称LoRAは、モデルの微調整に対する独自のアプローチを取っています。LoRAは、事前学習済みモデルの重みを静的な状態に保ちながら、トランスフォーマー構造の各層にトレーニング可能なランク分解行列を導入します。この手法により、下流タスクに必要なトレーニングパラメータの数を1万分の1に減らし、GPUメモリの要件を3倍に削減できます。モデルの品質に関しては、LoRAは従来の微調整方法に匹敵するか、あるいはそれを上回る性能を発揮することが示されています(オリジナルのLoRA論文の結果を参照)。また、トレーニングスループットの向上という利点もあります。アダプターメソッドとは異なり、LoRAは推論時に追加のレイテンシを発生させないため、デプロイメントフェーズでモデルの効率を維持します。
Fine-tune Whisper models on Amazon SageMaker with LoRA
Discussion