👻

【LLM】Coursera Generative AI with Large Language Models - Week 2

2023/08/15に公開

前回: 【LLM】Coursera Generative AI with Large Language Models - Week 1

Fine-tuning LLMs with instruction

Introduction - Week 2

fine tuning学ぶ
LoRAが重要

Instruction fine-tuning

LLMのfine tuningといえばほぼこれ
指示と答えのセットをdatasetとして作る。適切なlossでbackpropagationする
full fine-tuning

Fine-tuning on a single task | Coursera

500-1000 examples for single task leraning
Catastrophic forgetting : fine-tuningの結果、元々のモデルが持っていた性能が落ちてしまう現象
解決策は3つ
- 気にしない: single taskなら他の性能が落ちても問題ない
- MTLする : 50-100,000 examples for multi-task learning
- PEFT (Parameter Efficient Fine Tuning) : 層を付け加えて、その層を学習させる。もとの重みはほとんどかわらないのでforgetしない

Multi-task instruction fine-tuning | Coursera

よくあるMulti task learningに同じ
- 指示と答えのdatasetを複数task分用意。
FLAN-XXX : fine-tuningしたXXXのモデル
- Fine-tuned LAnguage Net
FLAN-T5ではsummarizeのタスク用のデータセットがある。SAMSum。16,000件のメッセージと要約のデータセット。
- intructionは複数用意してある。(augmentationのようなもの)
13,000件のビジネスサポートチャットデータもある

Scaling instruct models | Coursera

2210.11416 Scaling Instruction-Finetuned Language Models
- 1836 tasksでfine-tuning
- evaluation方法も提示

Model evaluation | Coursera

ROUGE : summaryの評価
- ROUGE-n Recall: n-gramでrecallを考える
- ROUGE-n Precision: n-gramでprecisionを考える
- ROUGE-n F1: n-gramでF1
- ROUGE-L: 最長共通部分列の個数を数える. その個数/unigramsでRecall, Precision, F1を計算
- ROUGE scoreは同一タスク間でモデルの相対的な性能を比較するために使う
- ROUGE clipping : 回数をuniqueにして同じwordが出ているだけのoutputを低スコアにする
- 順番は考慮できていないことがある
- Hugging Faceに実装されている
BLEU SCORE : 翻訳の評価
- Avg(preicision across range of n-grams sizes)
- Hugging Faceのようなlibraryが公開されている

Discussion