ViT[入門]

Vision Transformer入門 ^[1]^[2]

脚注

Pre-Norm:
Layer normalizationは各サブレイヤーの入力部に適用される。Layer NormはLayer-Normの一部として考えられ、residual接続の後処理は行われない。

Post-Norm:
オリジナルのTransformerアーキテクチャでは、各サブレイヤーの出力部にLayer Normが適用されている。Sub-layerの活動後にresidual接続を通じてLayer Normが行われる。

Pre-Normのメリット
勾配の伝播が改善されたため、多層ネットワークでも訓練が安定する可能性がある。スタックの深さに関係なく、勾配の伝播に関する計算の複雑さが増加しない。

参照

Self Attention

input (query) と memory (key, value) の両方が同じ Tensor を使う Attention
※ VisionTransformerではSelf Attentionが繰り返し使用されている。

Saurce-Target Attention

input (query) と memory (key, value) の２つが別の Tensor を使う Attention
※ TransformerではSelf Attention・Saurce-Target Attentionが使用されている。

GELU: Gaussian Error Linear Units

Reiji Kume

勉強資料