Open3
LLMの学習処理インフラの実行効率・障害・テレメトリー
LLMの学習に用いられる計算機クラスタの実行効率と障害による影響、それらを観測するためのテレメトリーについて調査・検証している。
クラスタ全体の実効効率を示すメトリクスとしては、Metaで採用されているものが参考になる。FLOPSや電力消費量、1バイトあたりの処理時間などがある。各メトリクスについて、モデル性能を悪化させるようなインセンティブがあるかや、計測の難しさについても書かれている。
Microsoftの研究グループによる、ソフトウェアエンジニアリング系トップ会議ICSE'24のGPUの低利用率に関する実証研究論文。深層学習ジョブのGPU利用について、706の低GPU利用問題を取り上げ、図のように原因が分類されている。粗粒度では、Model要因が45%、Data要因が46%。
細粒度では次の順で支配的。
- Inefficient Host-GPU Data Transfer: 28%
- Improper Batch Size: 25%
- Model Checkpointing: 16%
- Data Exchange: 7%