Closed5
ViT[入門]
Pre-Norm vs Post-Norm
Pre-Norm:
Layer normalizationは各サブレイヤーの入力部に適用される。Layer NormはLayer-Normの一部として考えられ、residual接続の後処理は行われない。
- Normalization -> Sub-layer
Post-Norm:
オリジナルのTransformerアーキテクチャでは、各サブレイヤーの出力部にLayer Normが適用されている。Sub-layerの活動後にresidual接続を通じてLayer Normが行われる。
- Sub-layer -> Normalization
Pre-Normのメリット
勾配の伝播が改善されたため、多層ネットワークでも訓練が安定する可能性がある。スタックの深さに関係なく、勾配の伝播に関する計算の複雑さが増加しない。
参照
Self Attention
- input (query) と memory (key, value) の両方が同じ Tensor を使う Attention
※ VisionTransformerではSelf Attentionが繰り返し使用されている。
Saurce-Target Attention
- input (query) と memory (key, value) の2つが別の Tensor を使う Attention
※ TransformerではSelf Attention・Saurce-Target Attentionが使用されている。
GELU: Gaussian Error Linear Units
勉強資料
- 導入
Vision Transformer入門を楽しむために
著者陣の視点からVision Transformer入門の執筆の背景と書評を書きます - アーキテクチャーへの理解
Vision Transformer 入門 2
【Vision Transformer】 コード解説
Vision Transfomerの歩みとこれから - VisionTransformerの派生
【DL輪読会】Vision Transformer with Deformable Attention (Deformable Attention Transformer:DAT)
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】Learning Transferable Visual Models From Natural Language Supervision
このスクラップは2024/04/25にクローズされました