📘

世界一わかりやすいマルチヘッドアテンションの解説

2025/03/10に公開

近年の自然言語処理(NLP)では、Transformerモデルが主流となっています。その中でも、マルチヘッドアテンション(Multi-Head Attention) は、Transformerの核となる仕組みです。

本記事では、マルチヘッドアテンションの仕組みを、できるだけシンプルなデータを用いて直感的に理解できるように解説します。


1. そもそもアテンションとは?

1.1 例:文章の単語間の関係を捉える

たとえば、以下の文があるとします。

例文

「猫はマットの上に座った。」

この文章を処理する際、「猫」が「座った」と関係していること、「マット」が「上」に関係していることを学習できると、文の意味をより正しく理解できます。

アテンションは、どの単語が他の単語とどれくらい関係があるかを計算する仕組みです。

1.2 アテンションの計算方法(簡易版)

各単語の関係性を数値で表したマトリックス(アテンション行列)を考えます。

マット 座った
1.0 0.2 0.1 0.1 0.1 0.1 0.9
座った 0.9 0.2 0.1 0.1 0.1 0.1 1.0

ここで、「猫」と「座った」のスコアが高く、「猫」と「マット」のスコアは低くなっています。

アテンションでは、このようなスコアを計算して、どの単語がどの単語に影響を与えるかを学習します。


2. マルチヘッドアテンションとは?

アテンションの考え方は分かりましたね? しかし、普通のアテンション(シングルヘッド)には問題があります。

  • 1つの視点(関係性)しか学習できない → もっと多様な関係を学習したい!

そこで登場するのがマルチヘッドアテンション(Multi-Head Attention) です。

2.1 マルチヘッドアテンションの仕組み

1つのアテンションではなく、複数のアテンション(ヘッド)を並列に計算することで、異なる視点から単語の関係を学習します。

例えば、以下のように3つのヘッド(異なる視点) を考えます。

(1) 文法関係ヘッド(主語と動詞)

マット 座った
1.0 0.1 0.1 0.1 0.1 0.1 0.9
座った 0.9 0.1 0.1 0.1 0.1 0.1 1.0

(2) 空間的関係ヘッド(場所に注目)

マット 座った
マット 0.2 0.2 1.0 0.8 0.9 0.3 0.1
0.1 0.1 0.9 1.0 1.0 0.5 0.2

(3) 文の構造ヘッド(接続詞や助詞に注目)

マット 座った
0.1 1.0 0.1 0.1 0.1 0.1 0.2
0.1 0.1 0.2 1.0 0.5 0.3 0.1

このように、異なるヘッドが異なる視点で単語の関係を学習できます。

最後に、それぞれのヘッドの出力を統合することで、より豊かな情報を持つ文脈表現が得られます。


3. 具体的な計算例(簡易版)

マルチヘッドアテンションは、以下のような手順で計算されます。

  1. 入力ベクトルを異なるヘッド用に分割

    • 各単語は、例えば128次元のベクトルを持つとします。
    • これを、3つのヘッド(それぞれ 42, 42, 44次元)に分割。
  2. 各ヘッドで異なるアテンションを計算

    • 文法関係、空間関係、文の構造のような異なる視点で学習。
  3. 各ヘッドの出力を結合

    • 最終的に元の次元数(128次元)に戻すために、全てのヘッドを結合。
  4. 最終的な文脈ベクトルを出力

    • マルチヘッドアテンションによって、より多様な意味を持つ表現が得られる。

4. まとめ

アテンションは、単語間の関係性を学習する仕組み。
マルチヘッドアテンションは、異なる視点で単語の関係を学習するための手法。
複数のヘッドを使うことで、文法関係や空間関係など多様な情報を獲得できる。
Transformer(BERT, GPTなど)では、このマルチヘッドアテンションが標準で組み込まれている。

これで、マルチヘッドアテンションの仕組みが直感的に理解できたのではないでしょうか?

次回は、実際にPythonでマルチヘッドアテンションを実装する方法について解説します!

Discussion