Open2

📝 メモ | LLMのプロンプトエンジニアリング

JAMJAM

1章

キーワード

  • 著者は、アルバート、ジョン
  • 言語モデル
  • マルコフモデル

言語モデルの歴史

  • seq2seqアーキテクチャ(2014年時点で評価がアーキテクチャー)
    • 思考ベクトルが固定サイズで有限だったが、エンコーダで隠れベクトルを保持して、デコーダからソフトサーチを行うようにして解決 -> ソフトサーチは、アテンション注意機構と呼ばれるようになった
    • 長いテキストから重要な情報を忘れてしまうことが多い
  • トランスフォーマアーキテクチャ
    • seq2seqモデルから再帰的な回路を全て取り除き、アテンション機構に依存する設計
    • GPTモデルの直接の先祖
    • 固定された有限のシーケンスしか処理できない制限がある
  • GPT
  • トランスフォーマのエンコーダ部分を取り除いた、デコーダーだけの構成
  • 当時の標準的な手法と相性が良かった
    • 事前トレーニングと特定のタスクに特化したファインチューニング
  • 1個1700万個のパラメータ、4.5GB
  • GPT-2
  • GPTに対して、モデルとトレーニングデータセットの規模を1桁増やすと、前例のない特性があった
    • 15億のパラメータ、40GB
  • GPT-3
    *GPT-2に対して、モデルとトレーニングデータセットを規模をさらに1桁増やす
    • 入力を修正することで、必要なタスクを実行するようにモデルを条件づけできる
    • プロンプトエンジニアリングの誕生

論文

その他

  • GPTの生成的事前トレーニング済みトランスフォーマー(generative pre-trained transformer)だったんだ。。。

tips

  • Copilotって隣タブ参照していたぽいので、ノイズを取り除く