Open2
📝 メモ | LLMのプロンプトエンジニアリング
1章
キーワード
- 著者は、アルバート、ジョン
- 言語モデル
- マルコフモデル
言語モデルの歴史
- seq2seqアーキテクチャ(2014年時点で評価がアーキテクチャー)
- 思考ベクトルが固定サイズで有限だったが、エンコーダで隠れベクトルを保持して、デコーダからソフトサーチを行うようにして解決 -> ソフトサーチは、アテンション注意機構と呼ばれるようになった
- 長いテキストから重要な情報を忘れてしまうことが多い
- トランスフォーマアーキテクチャ
- seq2seqモデルから再帰的な回路を全て取り除き、アテンション機構に依存する設計
- GPTモデルの直接の先祖
- 固定された有限のシーケンスしか処理できない制限がある
- GPT
- トランスフォーマのエンコーダ部分を取り除いた、デコーダーだけの構成
- 当時の標準的な手法と相性が良かった
- 事前トレーニングと特定のタスクに特化したファインチューニング
- 1個1700万個のパラメータ、4.5GB
- GPT-2
- GPTに対して、モデルとトレーニングデータセットの規模を1桁増やすと、前例のない特性があった
- 15億のパラメータ、40GB
- GPT-3
*GPT-2に対して、モデルとトレーニングデータセットを規模をさらに1桁増やす- 入力を修正することで、必要なタスクを実行するようにモデルを条件づけできる
- プロンプトエンジニアリングの誕生
論文
その他
- GPTの生成的事前トレーニング済みトランスフォーマー(generative pre-trained transformer)だったんだ。。。
tips
- Copilotって隣タブ参照していたぽいので、ノイズを取り除く