Closed4
ReLoRAの論文読む
そもそも線形代数の話
行列AとBのrankの間には以下が成り立つ
LoRAの話
とある層のweightをW、学習後のweightをΔWとする。
LoRAでは、ΔWは、ΔWよりもlow Rankの行列AとBの積として表すことができる。
ABの積で近似できる。ただしsは1/r
ここで、LoRAを学習途中でN回restartすることを考えると、ΔWは以下のようになる
従来LoRAの1回学習でのrankとN回restartしたときのrankだと、restartしたときのrankのほうが大きくなるってこと?
何度もLoRAをrestartする場合、最適化手順の修正が必要
a jagged-cosine learning rate schedule の提案
Experiments
C4データセットで60M、130M、250M、350Mサイズのモデルを学習
ReLoRAはLoRAよりも大幅に優れたパフォーマンスを示した。ReLoRAがControlベースラインを上回らなかった唯一のモデルは、60Mパラメータの最小モデルだった。これより大規模ネットワークの訓練を改善するのに効果的であると言える。
このスクラップは2023/07/19にクローズされました