📺

Transformerよりもシンプル?「MLP-Mixer」爆誕(5日目) ~Related Work / Conclusion編~

15 min read

ニツオです。TwitterでAIやMLについて関連する話題を紹介してます。お気軽にフォローやご質問ください。

さて、2021年5月にMLP-Mixerというモデルが爆誕しました。本日はその解説シリーズ5日目です。

  • 1日目: Abstract / Introduction
  • 2日目: Mixer Architecture
  • 3日目: Experiments 1
  • 4日目: Experiments 2
  • 5日目: Related Work / Conclusion
  • 6日目: Source Code

「MLP-Mixer: An all-MLP Architecture for Vision」の原文はこちらです。2021年5月4日にGoogle ResearchとGoogle Brainの混合チームから発表され、関係者のTwitterでもかなり話題になっています。

シリーズ関連記事は一番下にリンク貼ってます。
早速みていきましょう。

4 Related Work

Mixer is a new architecture for computer vision that differs from previous successful architectures because it uses neither convolutional nor self-attention layers.

Mixerは、コンピュータビジョンのための新しいアーキテクチャで、これまで成功してきたアーキテクチャとは異なり、畳み込みレイヤーやSelf-Attentionレイヤーを使用しません。

Nevertheless, the design choices can be traced back to ideas from the literature on CNNs [24, 25] and Transformers [48].

とはいえ、このデザインの発想は、CNN[24, 25]やTransformer[48]の文献から得たアイデアに遡る。

Attention is all you need については過去記事もあります。参照ください。

https://zenn.dev/attentionplease/articles/2d4b2b55ba396e

CNNs have been the de facto standard in computer vision field since the AlexNet model [24] surpassed prevailing approaches based on hand-crafted image features, see [34] for an overview.

CNNは、ハンドクラフトされた画像特徴に基づく従来のアプローチを、AlexNetモデル[24]が凌駕して以来、コンピュータビジョン分野のデファクトスタンダードとなっています(概要は[34]を参照)。

34: A. Pinz. Object categorization

An enormous amount of work followed, focusing on improving the design of CNNs.
We highlight only the directions most relevant for this work.

その後、CNNの設計を改善するために膨大な研究が行われた。
ここでは、この作品に最も関連する方向性のみを紹介します。

Simonyan and Zisserman [40] demonstrated that a series of convolutions with a small 3×3 receptive field is sufficient to train state-of-the-art models.

Simonyan and Zisserman [40]は、3×3の小さな受容野(フィルターでありカーネル)で一連の畳み込みを行うだけで、最先端の性能を持つモデル(SOTAモデル)に学習できることを示した。

40: K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image
recognition

Later, He et al. [15] introduced skip-connections together with the batch normalization layer [20], which enabled training of very deep neural networks with hundreds of layers and further improved performance.

その後、Heら[15]は、バッチ正規化層[20]とともにスキップ結合を導入し、数百の層を持つ非常に深いニューラルネットワークの学習を可能にし、さらに性能を向上させました。

A prominent line of research has investigated the benefits of using sparse convolutions, such as grouped [54] or depth-wise [9, 17] variants.

グループ化[54]や深さ方向[9, 17]など、スパース(重み行列の中の小さな値は0にしてしまって軽くした状態)な畳み込みを使用することの利点を研究しているものも著名です。

Finally, Hu et al. [18] and Wang et al. [51] propose to augment convolutional networks with non-local operations to partially alleviate the constraint of local processing from CNNs.

最後に、Huら[18]とWangら[51]は、CNNのローカル処理の制約を部分的に緩和するために、コンボリューショナル・ネットワークを非ローカル演算で補強することを提案している。

Mixer takes the idea of using convolutions with small kernels to the extreme:

Mixerは、小さなカーネルで畳み込みを行うというアイデアを極限まで(フィルターが1×1という意味で)高めたものです。

by reducing the kernel size to 1×1 it effectively turns convolutions into standard dense matrix multiplications applied independently to each spatial location (channel-mixing MLPs).

カーネル(フィルター)サイズを縦×横=1×1にすることで、畳み込み処理を、各空間位置に独立して適用される標準的な行列の内積に変えることができます(チャネル混合MLP)。

This modification alone does not allow aggregation of spatial information and to compensate we apply dense matrix multiplications that are applied to every feature across all spatial locations (token-mixing MLPs).

この修正だけでは、空間情報を集約することができないため、それを補うために、すべての空間的な位置にあるすべての特徴に適用される行列の内積も行います(トークン混合MLP)。

In Mixer, matrix multiplications are applied row-wise or column-wise on the “patches×features” input table, which is also closely related to the work on sparse convolutions.

Mixerでは、「パッチ×フィーチャ」(=S \times C)の入力テーブルに対して、行ごとまたは列ごとに行列の乗算が行われますが、これはスパース・コンボリューションの研究とも密接に関連しています。

Finally, Mixer makes use of skipconnections [15] and normalization layers [2, 20].

最後に、Mixerはskip結合[15]と、正規化layer[2, 20]を利用しています。

The initial applications of self-attention based Transformer architectures to computer vision were for generative modeling [8, 32].

Self-AttentionレイヤーをベースとしたTransformerアーキテクチャのコンピュータビジョンへの初期の応用は、生成的モデリングのためのものでした[8, 32]。

Their value for image recognition was demonstrated later, albeit in combination with a convolution-like locality bias [36], or on very low-resolution images [10].

畳み込みのような局所性バイアスとの組み合わせ[36]や、非常に低解像度の画像に対するものではあるが、後に画像認識への有用性が示された[10]。

Recently, Dosovitskiy et al. [14] introduced ViT, a pure transformer model that has fewer locality biases, but scales well to large data.

最近、Dosovitskiyら[14]は、純粋な変換モデルであるViTを導入しました。このモデルは、ローカリティ・バイアスが少なく、大規模なデータにも対応しています。

14: A. Dosovitskiy, L. Beyer, A. Kolesnikov, D. Weissenborn, X. Zhai, T. Unterthiner, M. Dehghani, M. Minderer, G. Heigold, S. Gelly, J. Uszkoreit, and N. Houlsby. An image is worth 16x16 words: Transformers for image recognition at scale

ViT achieves state-of-the-art performance on popular vision benchmarks while retaining the robustness properties of CNNs [6].

ViTは、CNNのロバスト性の特性を維持しつつ、一般的なビジョンベンチマークで最先端の性能を達成している[6]。

6: S. Bhojanapalli, A. Chakrabarti, D. Glasner, D. Li, T. Unterthiner, and A. Veit. Understanding robustness of transformers for image classification. arXiv preprint arXiv:2103.14586, 2021

Touvron et al. [47] showed that ViT can be trained effectively on smaller datasets using extensive regularization.

Touvronら[47]は,ViTが広範囲の正則化を用いて,より小さなデータセットで効果的に学習できることを示した。

47: H. Touvron, M. Cord, M. Douze, F. Massa, A. Sablayrolles, and H. Jégou. Training data-efficient image transformers & distillation through attention. arXiv preprint arXiv:2012.12877, 2020

Mixer borrows design choices from recent transformer-based architectures;

Mixerは、最近のこうしたTransformerをベースとしたアーキテクチャーのデザインを参考にしています。

the design of MLP-blocks used in Mixer originates from Vaswani et al. [48].

Mixerで使用されているMLPブロックの設計は、Vaswaniら[48]に由来しています。

48: A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, Ł. Kaiser, and I. Polosukhin. Attention is all you need

Further, converting images to a sequence of patches and then directly processing embeddings of these patches originates in Dosovitskiy et al. [14].

また、画像をパッチの列に変換し、そのパッチの埋め込みを直接処理する方法は、Dosovitskiyら[14]に由来する。

14: An image is worth 16x16 words: Transformers for image recognition at scale

Similar to Mixer, many recent works strive to design more effective architectures for vision.

Mixerと同様に、最近の多くの研究では、より効果的なビジョン用のアーキテクチャを設計しようとしています。

For example, Srinivas et al. [41] replace 3×3 convolutions in ResNets by self-attention layers.

例えば、Srinivasら[41]は、ResNetsの3×3の畳み込みをSelf-Attentionレイヤーに置き換えています。

Ramachandran et al. [36], Li et al. [26], and Bello [3] design networks that work well with new attention-like mechanisms.

Ramachandranら[36]、Liら[26]、Belloら[3]は、新しいAttentonライクなメカニズムと相性の良いネットワークを設計しています。

Mixer can be seen as a step in an orthogonal direction, without reliance on locality bias and attention mechanisms.

Mixerは、局所的なバイアスやAttentonメカニズムに依存しない、直交する方向へのステップと見ることができます。

Neyshabur [29] is closely related.
The authors devise custom regularization and optimization algorithms, to train a fully-connected network for vision.

Neyshabur[29]はそれに近いものがあります。
著者らは、正則化と最適化のアルゴリズムをカスタマイズして、視覚のための完全結合ネットワークを訓練した。

It attains reasonable performance on smallscale image classification tasks.

スモールスケールの画像分類タスクにおいて、妥当な性能を得ることができます。

Our architecture instead relies on token-mixing and channel-mixing MLPs, uses standard regularization and optimization techniques, and scales to large data effectively.

Mixerは、その代わりに、トークン混合とチャンネル混合のMLPを使用し、標準的な正則化と最適化の技術を使用し、大規模なデータに効果的に対応できるようにしています。

Traditionally, networks evaluated on ImageNet [13] are trained from-scratch using Inception-style pre-processing [45].

従来,ImageNet [13]で評価されるネットワークは,Inceptionスタイルの前処理 [45]を用いて0から学習されていました。

For smaller datasets, transfer of ImageNet models is popular.

小さなデータセットでは、ImageNetモデルの転送がよく行われます。

However, modern state-of-the-art models typically use either weights pre-trained on larger datasets, or more recent data-augmentation and training strategies.

しかし、最新のモデルでは、大規模なデータセットで事前に学習された重みを使用するか、より新しいデータ拡張および学習戦略を使用するのが一般的です。

For example, Dosovitskiy et al. [14], Kolesnikov et al. [22], Mahajan et al. [28], Pham et al. [33], Xie et al. [53] all advance the state of the art in image classification using large-scale pre-trained weights.

例えば、Dosovitskiyら[14]、Kolesnikovら[22]、Mahajanら[28]、Phamら[33]、Xieら[53]などは、大規模な事前学習済みの重みを用いて画像分類の技術を進歩させています。

Examples of improvements due to augmentation or regularization changes include Cubuk et al. [11], who attain excellent classification performance with learned data augmentation, and Bello et al. [4], who show that canonical ResNets are still near the state of the art, if one uses recent training and augmentation strategies.

データ拡張や正則化の変更による改善の例としては、拡張したデータを学習したことで優れた分類性能を達成したCubukら[11]や、最近の学習・補強戦略を用いれば、正統派ResNetsが依然として最も高い技術水準にあることを示したBelloら[4]などがあります。

5 Conclusions

We describe a very simple architecture for vision.

コンピュータ・ビジョンのための非常にシンプルなアーキテクチャについて説明した。それがMLP Mixer。

Our experiments demonstrate that it is as good as existing state-of-the-art methods in terms of the trade-off between accuracy and computational resources required for training and inference.

Mixerは、我々の実験では、学習と推論に必要な精度と計算資源のトレードオフの観点から、既存の最先端の手法と同等の性能を持つことが実証されました。

We believe these results open many questions.

この結果は多くの疑問を投げかけていると思います。

On the practical side, it may be useful to study the features learned by the model and identify the main differences (if any) from those learned by CNNs and Transformers.

実用面では、モデルが学習した特徴を調べ、CNNやTransformerが学習した特徴との主な違い(もしあれば)を明らかにすることが有用であろう。

On the theoretical side, we would like to understand the inductive biases hidden in these various features and eventually their role in generalization.

理論面では、これらの様々な特徴に隠された帰納的なバイアスを理解し、最終的には一般化における役割を理解したいと考えています。

Most of all, we hope that our results spark further research, beyond the realms of established models based on convolutions and self-attention.

そして何よりも、今回の結果が、畳み掛けやAttentonに基づく既存のモデルの域を超えて、さらなる研究のきっかけとなることを願っています。

It would be particularly interesting to see whether such a design works in NLP or other domains.

特に、このようなデザインがNLPや他のドメインで機能するかどうかは興味深いところです。

おわり

「MLP-Mixer」を解説するシリーズ5日目は以上です。この分野は特に技術革新のペースが速くて、すぐに陳腐になってしまうように思えますが、最新の技術も、この章のように過去の技術をベースに生まれたりするので、主要な技術の論文は、古くなっても慌てずに読解していくのがよいなと感じました。

感想や要望・指摘等は、お気軽に本記事へのコメントや、TwitterのリプライやDMに頂ければ幸いです。おしまい。

シリーズ関連記事はこちら

https://zenn.dev/attentionplease/articles/532a3de6308f57
https://zenn.dev/attentionplease/articles/7a11a56d767280
https://zenn.dev/attentionplease/articles/df6170f8581b71
https://zenn.dev/attentionplease/articles/7a3e74ad1bc9bf
https://zenn.dev/attentionplease/articles/a0d88939f9ceed
https://zenn.dev/attentionplease/articles/719580daf5a2d1

Discussion

ログインするとコメントできます