🙆

自分が考えるAMD Developerクラウドを快適に使う方法

に公開

AMD Developer CloudでMI300Xを快適に使う方法

こんにちは。最近、大規模言語モデルの学習でMI300Xを触る機会が増えたのですが、AMD Developer Cloudがかなり使い勝手が良かったので、その活用方法をメモとして残します。

AMD Developer Cloudって何?

AMD Developer Cloudは、DigitalOcean社がAMDと提携して提供している、MI300Xをオンデマンドで使えるクラウドサービスです。2025年8月時点では時間単価2USDと、なかなかありがたい価格設定になっています。

何といってもMI300Xの魅力は、192GBという豊富なVRAMです。これだけあると、学習時のバッチサイズを大幅に上げられるし、30Bパラメータクラスのモデルでも、シングルGPUでガチ学習ができます。H100(80GB)だとFSDPやDeepspeed Z3を使って分散学習するしかないような場面でも、MI300Xなら1枚で済んでしまうケースが多いです。マジ感謝です。

使い始める前に準備しておくもの

実際に使ってみて、これがあると作業が格段に楽になるというものを挙げておきます:

  • AWS S3ストレージ(互換サービスでもOK)
  • Hugging Faceアカウント
  • AIへの愛情
  • トラブルを楽しむ心

最後の2つは冗談っぽく聞こえるかもしれませんが、案外重要です。新しい環境では予期しないエラーに遭遇することもあるので、それを楽しめる気持ちがあると良いでしょう。

セットアップの流れ

SSH接続の準備

まずはLinuxマシンで生成したSSH公開鍵を、Developer CloudのSettingsページに登録します。これをやっておけば、後々の接続が楽になります。

AMD GPU Dropletsの作成

Dockerイメージを選ぶ際は、「Ubuntu 24.04 + ROCm」のプレーンな環境を強くお勧めします。プリインストール版のPyTorchパッケージは、動作しないモジュールが混じっていることがあったので、素の環境から自分で構築する方が確実です。

VSCodeで開発環境を整える

DropletのIPアドレスが表示されたら、rootユーザーでVSCodeから接続します。慣れ親しんだ環境で作業できるのは、やっぱり快適ですね。

必要ツールのインストール

ここからは、開発を効率化するためのツールを入れていきます:

byobu
セッションが切れても作業が継続されるので、長時間の学習を回す際には便利です。

Miniconda
Python環境の管理に使います。
自分はvenv非対応な人間なので重宝しています

PyTorch
ROCm版をインストールします。
基本的にはStable版をお勧めします

AWS CLI
S3との連携で重宝します。
チェックポイントを自動でUploadするスクリプトを書くと、
万が一鯖が落ちても、心は健全に維持できます

huggingface_hub
モデルのダウンロード・アップロードがスムーズになります。

Wan DB
学習中の状況を確認できます。
スパイクや、NaNなどがでても即座に対応することができます。
気持ちの落ち込みを最小限に抑えることが可能になります。

使ってみた感想

正直、最初はAMD GPUでの学習に不安がありましたが、実際に使ってみるとNVIDIA環境と遜色なく動作します。特に大きなモデルを扱う際のVRAMの余裕は、心の余裕を大きくしてくれます。

時間単価も手頃なので、個人研究者や小規模なチームでも気軽に試せるのが良いところです。H100クラスターを借りるより圧倒的に安く済みますし、シングルGPUで完結するタスクなら、むしろこちらの方が効率的かもしれません。

Rocmつかおうね。

Discussion