Open2024/04/04にコメント追加2

日本語LLMの継続事前学習について

大規模言語モデル

参考資料(時系列でない)

論文

ライブラリ

NVIDIA/Megatron-LM
Lightning-AI/litgpt
okoge-kaz/llm-recipes
- Swallow Project用とのこと
kotoba-tech/kotoba-recipes
- 使い方？

解説・メモ

Reddit

その他

疑問点

「warm (up)」とは？
全層を訓練対象にしたLoRAは継続事前学習と同義か？
- (参考)LLMのファインチューニングで事実の学習ができないのは本当か？ちょっと実験してみた
「Catastrophic interference(破滅的忘却、破局的忘却)」とは？