👻
【LLM】Coursera Generative AI with Large Language Models - Week 2
Fine-tuning LLMs with instruction
Introduction - Week 2
- fine tuning学ぶ
- LoRAが重要
Instruction fine-tuning
- LLMのfine tuningといえばほぼこれ
- 指示と答えのセットをdatasetとして作る。適切なlossでbackpropagationする
- full fine-tuning
Fine-tuning on a single task | Coursera
- 500-1000 examples for single task leraning
- Catastrophic forgetting : fine-tuningの結果、元々のモデルが持っていた性能が落ちてしまう現象
- 解決策は3つ
- 気にしない: single taskなら他の性能が落ちても問題ない
- MTLする : 50-100,000 examples for multi-task learning
- PEFT (Parameter Efficient Fine Tuning) : 層を付け加えて、その層を学習させる。もとの重みはほとんどかわらないのでforgetしない
Multi-task instruction fine-tuning | Coursera
- よくあるMulti task learningに同じ
- 指示と答えのdatasetを複数task分用意。
- FLAN-XXX : fine-tuningしたXXXのモデル
- Fine-tuned LAnguage Net
- FLAN-T5ではsummarizeのタスク用のデータセットがある。SAMSum。16,000件のメッセージと要約のデータセット。
- intructionは複数用意してある。(augmentationのようなもの)
- 13,000件のビジネスサポートチャットデータもある
Scaling instruct models | Coursera
-
2210.11416 Scaling Instruction-Finetuned Language Models
- 1836 tasksでfine-tuning
- evaluation方法も提示
Model evaluation | Coursera
-
ROUGE : summaryの評価
- ROUGE-n Recall: n-gramでrecallを考える
- ROUGE-n Precision: n-gramでprecisionを考える
- ROUGE-n F1: n-gramでF1
- ROUGE-L: 最長共通部分列の個数を数える. その個数/unigramsでRecall, Precision, F1を計算
- ROUGE scoreは同一タスク間でモデルの相対的な性能を比較するために使う
- ROUGE clipping : 回数をuniqueにして同じwordが出ているだけのoutputを低スコアにする
- 順番は考慮できていないことがある
- Hugging Faceに実装されている
-
BLEU SCORE : 翻訳の評価
- Avg(preicision across range of n-grams sizes)
- Hugging Faceのようなlibraryが公開されている
Discussion