Closed5
Transformer

今までは以下のニューラルネットワークが一般的だった
- RNN(リカレント層)※Recurrent: 再帰
- CNN(畳み込み層)
以下デメリット
- 長文になると精度が下がる
- 並列処理に向かないため大規模な仕様に向かない
↓
Transformer
- 2015年には発表されていた
- 2017年にAttention Is All You Needの論文が出た
- 2017年まではリカレント層+Attention層で使っていたが、「リカレント層いらなくね?」となった
- Attention: 分の中で重要な単語に重みづけをして渡す
大切なのはMulti-Head Attention
Multi-Head Attention
類似度をいろいろな角度で測ることでどこに注目すべきかを決めて情報を次に流していく仕組み
その他
- 内積 -> 類似度の計算
- K,V,Q -> クエリとキーの類似度が近いバリューを取得する -> 足して返す
- softmax関数 -> 合計を1として確率を求める -> 重みに変換すること

TODO: これを読む
このスクラップは2025/01/26にクローズされました