Closed2025/01/26にクローズ5

Transformer

今までは以下のニューラルネットワークが一般的だった

RNN（リカレント層）※Recurrent: 再帰
CNN（畳み込み層）

以下デメリット

長文になると精度が下がる
並列処理に向かないため大規模な仕様に向かない

↓

Transformer

2015年には発表されていた
2017年にAttention Is All You Needの論文が出た
2017年まではリカレント層+Attention層で使っていたが、「リカレント層いらなくね？」となった
Attention: 分の中で重要な単語に重みづけをして渡す

大切なのはMulti-Head Attention

Multi-Head Attention

類似度をいろいろな角度で測ることでどこに注目すべきかを決めて情報を次に流していく仕組み

その他

内積 -> 類似度の計算
K,V,Q -> クエリとキーの類似度が近いバリューを取得する -> 足して返す
softmax関数 -> 合計を1として確率を求める -> 重みに変換すること

TODO: これを読む

このスクラップは2025/01/26にクローズされました