Open2024/12/02にコメント追加5

NCCLにおける環境変数

NCCL ... NVIDIA Collective Communications Library

 NCCL_IGNORE_CPU_AFFINITY
 役割NCCL_IGNORE_CPU_AFFINITY を 1 に設定すると、NCCL はジョブで指定された CPU アフィニティを無視し、GPU アフィニティのみを使用する。（デフォルトでは0） ￼
!アフィニティとは、特にプロセッサ（CPU）やスレッドに関連して使用される場合、特定のスレッドやプロセスを特定のCPUコアやその他のハードウェアリソースに結びつける（固定する） 概念を指す
アフィニティのメリット
キャッシュの効率化: プロセスやスレッドが同じCPUコアで実行されると、そのコアのキャッシュ（L1、L2、L3キャッシュ）にデータが保持されやすくなり、キャッシュヒット率が向上
コンテキストスイッチの削減: CPU間でタスクを移動する必要がなくなり、オーバーヘッドが減少
リアルタイム性能の向上: 高い優先度のプロセスを特定のコアに割り当てることで、リアルタイム性が必要なタスクの遅延を削減

Linuxでの指定例Linuxでは、taskset コマンドを使ってプロセスのCPUアフィニティを設定できる。
taskset -c 0,2 my_program
これにより、my_program は CPU コア 0 と 2 のみで実行される。
メモリアフィニティNUMA（Non-Uniform Memory Access）環境では、CPUコアとメモリバンクが物理的に近接している場合、アフィニティを設定することで、CPUが「ローカルメモリ」にアクセスしやすくなる。これにより、メモリアクセスのレイテンシが低減する。
GPUアフィニティGPUアフィニティは、GPUのリソースを特定のプロセスやスレッドに割り当てる設定。NCCL などの通信ライブラリは、効率的にGPU間通信を行うためにアフィニティを考慮する。
アフィニティが無視される場合の影響アフィニティが無視されると、プロセスやスレッドが任意のCPUコアにスケジュールされるため、以下のような影響が生じる可能性がある。
キャッシュミスの増加：キャッシュの内容が他のコアで使えず、再読み込みが必要になる
性能の不安定性：異なるコア間での通信やメモリアクセスが増え、性能がばらつく
高負荷状態での競合：特定のリソースに負荷が集中する場合がある
https://github.com/NVIDIA/nccl/issues/1017 の例では、コンテナ環境で NCCL を使用する際に、CPU リソースの利用方法に影響を与える可能性があります。例えば、H100 クラスター上でコンテナ内で NCCL を使用する際に、NCCL_IGNORE_CPU_AFFINITY=1 を設定し、--cpu-bind none オプションを使用することで、レイテンシが大幅に減少したとの報告がある。 ￼

 効果SlurmのCPUアフィニティ設定が、NCCLが最適とするGPUとの通信パスに対して不利なコアを使用させることがあり、結果として、GPU間通信やデータ転送に必要なCPUリソースが効率的に活用されず、レイテンシや帯域幅が低下する

nariaki3551

NCCL_NET_GDR_LEVEL

GPU Direct RDMA（GDR）を使用する際のNIC と GPU 間の距離に基づいて、どの程度の距離まで GDR を適用するかを細かく調整できる

value	description
0	GDR は常に無効
1	GPU と NIC が同じ PCI スイッチ上にある場合に GDR を使用
2	GPU と NIC が複数の PCI スイッチを経由して接続されている場合に GDR を使用
3 (default)	GPU と NIC が同じ PCI PCI Root Complex上にあり、CPU を経由する可能性がある場合に GDR を使用
4	GPU と NIC が同じ NUMA ノード内で、異なる PCI ルートコンプレックス間で接続されている場合にも GDR を使用

PCI Root Complexとは

PCIe アーキテクチャにおいて、システムのCPUやメモリとPCIeデバイス（例: GPU、ネットワークカード、ストレージデバイスなど）を接続するための起点となる論理的な構造を指す。

CPUとPCIeデバイス間の橋渡し: PCI Root Complexとは、CPUまたはチップセットから直接接続され、CPUとPCIeデバイス間でデータを転送する役割を担う。
ルートポートの存在: ルートコンプレックスは、一つまたは複数の「ルートポート」を持ち、これらのポートを通じてPCIeデバイスが接続される。ルートポートの下にはスイッチやエンドポイントが接続されることがある。
システムのトポロジー構成の基本単位: システムのPCIeトポロジーの基本単位であり、複数のルートコンプレックスが存在する場合、各ルートコンプレックスは独立した通信領域を提供する。

nariaki3551

 NCCL_NCHANNELS_PER_PEERNCCLが同じペア間（peer-to-peer）通信で使用するチャネル数を指定する
デフォルトでは 1〜4 チャネルが使用されることが多い。これを増やすことで次の効果が期待される。
並列通信の増加: チャネル数を増やすことで、同時に通信できるパスが増加。例えば、同一ノード内のGPU間通信（intra-node）で、帯域幅の最大活用が可能に
高帯域幅の活用: 多くのチャネルを利用することで、PCIeやNVLinkなどの高帯域幅インターコネクトの能力をフルに引き出せる
通信の重複解消: 通信が並列に進むため、スレッド間の待機時間が減少し、通信効率が向上
当然、チャネル数を増やした場合のデメリットもある
各チャネルごとに通信バッファが必要
リソースの競合
GPU内でスレッドブロックの競合
チャネルごとに通信スレッドが増えるため、スレッド間の同期が多くなる