🦅

VIT解説 Part3 MLPHead

2024/03/29に公開

VIT解説シリーズのPart3です。Part1、Part2

今回はMLPHeadを解説し、VITの解説をまとめます。

4. MLPHead

MLPHeadはクラス分類を行う分類機です。
アーキテクチャは以下のようになっています。
・MLPHead

単MLPHeadは、単純なLinearとLayerNormによる一層の線型結合層です。

主な役割は、Encoderで得られたベクトル空間を特定のクラス数に整える事です。
MLPHeadには活性化関数が含まれていないため、学習の部分はEncoder部分が担っている事が分かります。

以上でVITの各部品についての解説は終了です。
では、改めてVITの概要を確認しましょう。

InputLayerは以下の流れで処理を行います。

この処理によって画像は機械が扱えるような、意味のある二次元配列に変換されます。

Encoderは以下の流れで処理を行います。

※Encoder Blockの処理

Encoderは、これを積み重ねてより深い特徴を学習します。

MLPHeadは以下の流れで処理を行います。

おおまかに
InputLayerで学習可能な形に変換、
Encoderで特定の画像トークンと周囲の画像トークンの類似度を学習、
MLPHeadで出力形状を整えます。

VITで注目すべきはAttention機構による特徴の抽出と、Multi-Headによる特徴空間の多様化です。これによってVITは柔軟な表現力を獲得する事ができています。

VITの解説は以上になります。
最後まで読んでいただきありがとうございました。

(1)原論文 An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
(2)Vision Transformer 入門株式会社技術評論社 2022/9/30 山本晋太郎,徳永匡臣,箕浦大晃,QIU YUE,品川政太郎

ログインするとコメントできます