Open2
日本語LLMの継続事前学習について
参考資料(時系列でない)
論文
- Swallow コーパス: 日本語大規模ウェブコーパス
- Efficient and Effective Text Encoding for Chinese LLaMA and Alpaca
- Continual Pre-training of Language Models
- Continual Pre-Training of Large Language Models: How to (re)warm your model?
- Continual Learning for Large Language Models: A Survey
- BloombergGPT: A Large Language Model for Finance
- 継続事前学習による日本語に強い大規模言語モデルの構築
- Pretrained Language Model in Continual Learning: A Comparative Study
ライブラリ
- NVIDIA/Megatron-LM
- Lightning-AI/litgpt
-
okoge-kaz/llm-recipes
- Swallow Project用とのこと
- kotoba-tech/kotoba-recipes
解説・メモ
- ELYZAが公開した日本語LLM「ELYZA-japanese-Llama-2-7b」についての解説 : (1) 事前学習編
- ELYZAが公開した日本語LLM「ELYZA-japanese-Llama-2-7b」についての解説 : (3) 英語での性能評価編
- Swallow: LLaMA-2 日本語継続事前学習モデル
- LiLM 小規模言語モデル TinyLlama 1.1B の日本語追加事前学習(incremental pretrain) を試したメモ
- Continual Learning of Foundation Models:CL-FoMo Suite of 9.6B and 410M LLMs
- HuggingFaceとDeepSpeedで実践継続事前学習
- 大規模言語モデルに追加学習で専門知識を教える試み
- Don't Stop Pretraining: Adapt Language Models to Domains and Tasks
- Megatron-DeepSpeedによるLlama2継続事前学習入門
- Continual pre-training on Llama2-7B?
- How to continue pre-training of an open-weight LLM and update the Tokenizer?
その他
疑問点
- 「warm (up)」とは?
- 全層を訓練対象にしたLoRAは継続事前学習と同義か?
- 「Catastrophic interference(破滅的忘却、破局的忘却)」とは?