Open2

AI and Memory Wall (Mar 2024)

bilzardbilzard
  • 学習コストのスケール則はHWのスケール則より遥かに早い
  • HWのメモリがますますボトルネックになりつつある

モデル

  • モデルパラメータ: x410/2y
  • 学習コスト: x750/2y

HW

  • computing: x3/2y
  • メモリの帯域: x1.6/2y, x1.4/2y

https://arxiv.org/abs/2403.14123


bilzardbilzard

参考: DeepSeekV3におけるGPU間の通信速度のボトルネック対策

  • 132個あるSMのうち20個をGPU間/ノード間通信専用に割り当てた
  • 高価なSMに割り当てるのは勿体無いので、将来的な設計ではGPUのコプロセッサに割り当てるようHWベンダに提言している