Open1

Transformers

meshidennmeshidenn

DFT作ろうとして失敗した

何をまちがえていたか。

  • gradient accumlationに対応できてなかった。
    • num_items_in_batchでlossを割るべきだった
      • loss = loss.sum() / num_items_in_batch
    • 自分は、もともとの実装通り num_activate_elementsで割っている
  • となると、もともとのSFTって、gradient accumlationあっているのか??