👻

【LLM】Coursera Generative AI with Large Language Models - Week 2

2023/08/15に公開

Fine-tuning LLMs with instruction

Introduction - Week 2

  • fine tuning学ぶ
  • LoRAが重要

Instruction fine-tuning

  • LLMのfine tuningといえばほぼこれ
  • 指示と答えのセットをdatasetとして作る。適切なlossでbackpropagationする
  • full fine-tuning

Fine-tuning on a single task | Coursera

  • 500-1000 examples for single task leraning
  • Catastrophic forgetting : fine-tuningの結果、元々のモデルが持っていた性能が落ちてしまう現象
  • 解決策は3つ
    • 気にしない: single taskなら他の性能が落ちても問題ない
    • MTLする : 50-100,000 examples for multi-task learning
    • PEFT (Parameter Efficient Fine Tuning) : 層を付け加えて、その層を学習させる。もとの重みはほとんどかわらないのでforgetしない

Multi-task instruction fine-tuning | Coursera

  • よくあるMulti task learningに同じ
    • 指示と答えのdatasetを複数task分用意。
  • FLAN-XXX : fine-tuningしたXXXのモデル
    • Fine-tuned LAnguage Net
  • FLAN-T5ではsummarizeのタスク用のデータセットがある。SAMSum。16,000件のメッセージと要約のデータセット。
    • intructionは複数用意してある。(augmentationのようなもの)
  • 13,000件のビジネスサポートチャットデータもある

Scaling instruct models | Coursera

Model evaluation | Coursera

  • ROUGE : summaryの評価

    • ROUGE-n Recall: n-gramでrecallを考える
    • ROUGE-n Precision: n-gramでprecisionを考える
    • ROUGE-n F1: n-gramでF1
    • ROUGE-L: 最長共通部分列の個数を数える. その個数/unigramsでRecall, Precision, F1を計算
    • ROUGE scoreは同一タスク間でモデルの相対的な性能を比較するために使う
    • ROUGE clipping : 回数をuniqueにして同じwordが出ているだけのoutputを低スコアにする
    • 順番は考慮できていないことがある
    • Hugging Faceに実装されている
  • BLEU SCORE : 翻訳の評価

    • Avg(preicision across range of n-grams sizes)
    • Hugging Faceのようなlibraryが公開されている

Discussion