Open4ヶ月前にコメント追加2
📝 メモ | LLMのプロンプトエンジニアリング

https://www.oreilly.co.jp/books/9784814401130/ を読んだメモです
 1章

 キーワード
著者は、アルバート、ジョン
言語モデル
マルコフモデル


 言語モデルの歴史
seq2seqアーキテクチャ（2014年時点で評価がアーキテクチャー）
思考ベクトルが固定サイズで有限だったが、エンコーダで隠れベクトルを保持して、デコーダからソフトサーチを行うようにして解決 -> ソフトサーチは、アテンション注意機構と呼ばれるようになった
長いテキストから重要な情報を忘れてしまうことが多い

トランスフォーマアーキテクチャ
seq2seqモデルから再帰的な回路を全て取り除き、アテンション機構に依存する設計
GPTモデルの直接の先祖
固定された有限のシーケンスしか処理できない制限がある

GPT
トランスフォーマのエンコーダ部分を取り除いた、デコーダーだけの構成
当時の標準的な手法と相性が良かった
事前トレーニングと特定のタスクに特化したファインチューニング

１個1700万個のパラメータ、4.5GB
GPT-2
GPTに対して、モデルとトレーニングデータセットの規模を1桁増やすと、前例のない特性があった
15億のパラメータ、40GB

GPT-3

*GPT-2に対して、モデルとトレーニングデータセットを規模をさらに1桁増やす
入力を修正することで、必要なタスクを実行するようにモデルを条件づけできる
プロンプトエンジニアリングの誕生




 論文
https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf


 その他
GPTの生成的事前トレーニング済みトランスフォーマー（generative pre-trained transformer）だったんだ。。。


 tips
Copilotって隣タブ参照していたぽいので、ノイズを取り除く