👻

【LLM】Coursera Generative AI with Large Language Models - Week 2

に公開

Fine-tuning LLMs with instruction

Introduction - Week 2

  • fine tuning 学ぶ
  • LoRA が重要

Instruction fine-tuning

  • LLM の fine tuning といえばほぼこれ
  • 指示と答えのセットを dataset として作る。適切な loss で backpropagation する
  • full fine-tuning

Fine-tuning on a single task | Coursera

  • 500-1000 examples for single task leraning
  • Catastrophic forgetting : fine-tuning の結果、元々のモデルが持っていた性能が落ちてしまう現象
  • 解決策は 3 つ
    • 気にしない: single task なら他の性能が落ちても問題ない
    • MTL する : 50-100,000 examples for multi-task learning
    • PEFT (Parameter Efficient Fine Tuning) : 層を付け加えて、その層を学習させる。もとの重みはほとんどかわらないので forget しない

Multi-task instruction fine-tuning | Coursera

  • よくある Multi task learning に同じ
    • 指示と答えの dataset を複数 task 分用意。
  • FLAN-XXX : fine-tuning した XXX のモデル
    • Fine-tuned LAnguage Net
  • FLAN-T5 では summarize のタスク用のデータセットがある。SAMSum。16,000 件のメッセージと要約のデータセット。
    • intruction は複数用意してある。(augmentation のようなもの)
  • 13,000 件のビジネスサポートチャットデータもある

Scaling instruct models | Coursera

Model evaluation | Coursera

  • ROUGE : summary の評価

    • ROUGE-n Recall: n-gram で recall を考える
    • ROUGE-n Precision: n-gram で precision を考える
    • ROUGE-n F1: n-gram で F1
    • ROUGE-L: 最長共通部分列の個数を数える. その個数/unigrams で Recall, Precision, F1 を計算
    • ROUGE score は同一タスク間でモデルの相対的な性能を比較するために使う
    • ROUGE clipping : 回数を unique にして同じ word が出ているだけの output を低スコアにする
    • 順番は考慮できていないことがある
    • Hugging Face に実装されている
  • BLEU SCORE : 翻訳の評価

    • Avg(preicision across range of n-grams sizes)
    • Hugging Face のような library が公開されている

Discussion