Closed6
大規模言語モデル[入門]
-
Attention moduleの改善による学習効率の向上
- Flash Attention : 2次関数ではなく線形の特性
- FlashAttention-2 : FlashAttentionよりも約2倍高速, 従来Attentionによる実装との比較では最大9倍の学習高速化
追加
-
分散学習による学習の高速化
- DeepSpeed: 深層学習の訓練/推論を高速化するフレームワーク
追加
Attention module以外のアーキテクチャの代替案
もっとある...
このスクラップは2024/04/25にクローズされました