Transformer学習スクラップ

Transformerモデルについて学習した内容をスクラップにまとめます。
言語学もコンピュータサイエンスも修めていない、ただのしがない業務系システムエンジニアのメモなので、その点ご承知おきいただいたうえでお読みいただければ幸いです。
Transformerとは
NLP(自然言語処理)で広く使われているニューラルネットワークのアーキテクチャ。
BERTやGPTなど、今をときめく言語モデルの基盤になっている。
自己注意機構(Self-Attention)を用いることで、文脈を効率的にとらえることができる。

Attentionとは
入力された情報の中で、どこに注目したらいいか?を決めるための仕組みがAttention。
例えば、人間が五感から何かしらの情報を得るとき、すべての入力された情報を平等に処理しているのではなく、重要だと思われる部分により注目(Attention)して情報処理している。
これと同じことをコンピュータ上で実現しよう、ということ。
Self-Attentionとは
Transformerモデルでは、Attentionの中でも、Self-Attentionという機構を用いている。
ある文章が入力されたとき、「文中のこの単語の意味を理解するのに、周囲のどの単語が重要か?」を計算して重みづけを行う仕組みがSelf-Attentionである。
入力された情報群の中で相互に(=Selfに)重要度を測ることから「Self-Attention」と呼ばれる。
Self-Attentionを使うと何がうれしいのか?
自然言語処理には、「ある単語の意味はその周囲の単語によって規定される」という考え方があり、これを分布仮説という。
Self-Attentionで、文中のある単語が周囲の単語とどのくらい関係性を持っているかを計算し、重みづけを行うことは、この分布仮説に従うと、入力された文章をより深く理解することにつながる。
『Attention is all you need』の論文で示されたこと
このAttention機構で構成されたモデル(=Transformer)が従来のRNN/LSTMベースのモデルよりも、精度・効率ともに優れていたということがGoogle『Attention is all you need』の論文で示された。