👻
【LLM】Coursera Generative AI with Large Language Models - Week 2
Fine-tuning LLMs with instruction
Introduction - Week 2
- fine tuning 学ぶ
- LoRA が重要
Instruction fine-tuning
- LLM の fine tuning といえばほぼこれ
- 指示と答えのセットを dataset として作る。適切な loss で backpropagation する
- full fine-tuning
Fine-tuning on a single task | Coursera
- 500-1000 examples for single task leraning
- Catastrophic forgetting : fine-tuning の結果、元々のモデルが持っていた性能が落ちてしまう現象
- 解決策は 3 つ
- 気にしない: single task なら他の性能が落ちても問題ない
- MTL する : 50-100,000 examples for multi-task learning
- PEFT (Parameter Efficient Fine Tuning) : 層を付け加えて、その層を学習させる。もとの重みはほとんどかわらないので forget しない
Multi-task instruction fine-tuning | Coursera
- よくある Multi task learning に同じ
- 指示と答えの dataset を複数 task 分用意。
- FLAN-XXX : fine-tuning した XXX のモデル
- Fine-tuned LAnguage Net
- FLAN-T5 では summarize のタスク用のデータセットがある。SAMSum。16,000 件のメッセージと要約のデータセット。
- intruction は複数用意してある。(augmentation のようなもの)
- 13,000 件のビジネスサポートチャットデータもある
Scaling instruct models | Coursera
-
2210.11416 Scaling Instruction-Finetuned Language Models
- 1836 tasks で fine-tuning
- evaluation 方法も提示
Model evaluation | Coursera
-
ROUGE : summary の評価
- ROUGE-n Recall: n-gram で recall を考える
- ROUGE-n Precision: n-gram で precision を考える
- ROUGE-n F1: n-gram で F1
- ROUGE-L: 最長共通部分列の個数を数える. その個数/unigrams で Recall, Precision, F1 を計算
- ROUGE score は同一タスク間でモデルの相対的な性能を比較するために使う
- ROUGE clipping : 回数を unique にして同じ word が出ているだけの output を低スコアにする
- 順番は考慮できていないことがある
- Hugging Face に実装されている
-
BLEU SCORE : 翻訳の評価
- Avg(preicision across range of n-grams sizes)
- Hugging Face のような library が公開されている
Discussion