Closed6

大規模言語モデル[入門]

Reiji KumeReiji Kume
  • Attention moduleの改善による学習効率の向上
    • Flash Attention : 2次関数ではなく線形の特性
    • FlashAttention-2 : FlashAttentionよりも約2倍高速, 従来Attentionによる実装との比較では最大9倍の学習高速化

追加

追加

脚注
  1. HuggingFace Transformers DeepSpeed Integration ↩︎

このスクラップは7日前にクローズされました