Closed5

ViT[入門]

Reiji KumeReiji Kume

Pre-Norm vs Post-Norm

Pre-Norm:
Layer normalizationは各サブレイヤーの入力部に適用される。Layer NormはLayer-Normの一部として考えられ、residual接続の後処理は行われない。

  • Normalization -> Sub-layer

Post-Norm:
オリジナルのTransformerアーキテクチャでは、各サブレイヤーの出力部にLayer Normが適用されている。Sub-layerの活動後にresidual接続を通じてLayer Normが行われる。

  • Sub-layer -> Normalization

Pre-Normのメリット
勾配の伝播が改善されたため、多層ネットワークでも訓練が安定する可能性がある。スタックの深さに関係なく、勾配の伝播に関する計算の複雑さが増加しない。

参照

Reiji KumeReiji Kume

Self Attention

  • input (query) と memory (key, value) の両方が同じ Tensor を使う Attention
    ※ VisionTransformerではSelf Attentionが繰り返し使用されている。

Saurce-Target Attention

  • input (query) と memory (key, value) の2つが別の Tensor を使う Attention
    ※ TransformerではSelf Attention・Saurce-Target Attentionが使用されている。
このスクラップは5ヶ月前にクローズされました