bilzard

<ul data-line="0" class="code-line">
<li data-line="0" class="code-line">学習コストのスケール則はHWのスケール則より遥かに早い</li>
<li data-line="1" class="code-line">HWのメモリがますますボトルネックになりつつある</li>
</ul>
モデル
<ul data-line="4" class="code-line">
<li data-line="4" class="code-line">モデルパラメータ: x410/2y</li>
<li data-line="5" class="code-line">学習コスト: x750/2y</li>
</ul>
HW
<ul data-line="8" class="code-line">
<li data-line="8" class="code-line">computing: x3/2y</li>
<li data-line="9" class="code-line">メモリの帯域: x1.6/2y, x1.4/2y</li>
</ul>
<iframe id="zenn-embedded__983515604028d" src="https://embed.zenn.studio/card#zenn-embedded__983515604028d" data-content="https%3A%2F%2Farxiv.org%2Fabs%2F2403.14123" frameborder="0" scrolling="no" loading="lazy"></iframe><a href="https://arxiv.org/abs/2403.14123" style="display:none" target="_blank" rel="nofollow noopener noreferrer">https://arxiv.org/abs/2403.14123</a>
<img src="https://storage.googleapis.com/zenn-user-upload/5bcb66fc4f56-20250205.jpeg" loading="lazy" class="md-img"> 
<img src="https://storage.googleapis.com/zenn-user-upload/c1e065291e9d-20250205.jpeg" loading="lazy" class="md-img">

参考: DeepSeekV3におけるGPU間の通信速度のボトルネック対策
<ul data-line="2" class="code-line">
<li data-line="2" class="code-line">132個あるSMのうち20個をGPU間/ノード間通信専用に割り当てた</li>
<li data-line="3" class="code-line">高価なSMに割り当てるのは勿体無いので、将来的な設計ではGPUのコプロセッサに割り当てるようHWベンダに提言している</li>
</ul>
<img src="https://storage.googleapis.com/zenn-user-upload/6fae4775f006-20250205.jpeg" loading="lazy" class="md-img">