Closed4
LLMトークン削減技術
https://platform.openai.com/docs/models/gpt-4 のmax_tokensに収まるようにプロンプトを圧縮・削減・変換する過渡期を感じる技術群
Contextual Compression
ルールベースの変換処理を書いてコンテキストに含めるテキストを減らす。
CompressGPT
- プロンプトの圧縮復元をLLMにプロンプトを与えてやってしまう
- 単純に圧縮処理のための追加の上乗せtoken消費がかかるが1 completionに乗せるtokenは減るねん。というやつらしい
- Redis使ってるのは途中の結果を保存してAPI叩かず再利用するため
The Recurrent Memory Transformer architecture
- Recurrent Memory Transformerを用いたトークンのスケーリング
- BERTモデルをRMTで補強する実験をしたら2,048,000 tokens入力できるようになって大勝利した
- GitHubはscaling-reportブランチを見るべし
2. The RMT memory augmentation
グローバルなメモリをセグメント化した入力embeddingsにつけて再帰的に適用させてゆく。
3.1 Fact Memorization
質問に対する事実を入力テキスト中にランダムに配置して記憶を元に回答が出せるか。
このスクラップは2023/06/17にクローズされました