自分が考えるAMD Developerクラウドを快適に使う方法
AMD Developer CloudでMI300Xを快適に使う方法
こんにちは。最近、大規模言語モデルの学習でMI300Xを触る機会が増えたのですが、AMD Developer Cloudがかなり使い勝手が良かったので、その活用方法をメモとして残します。
AMD Developer Cloudって何?
AMD Developer Cloudは、DigitalOcean社がAMDと提携して提供している、MI300Xをオンデマンドで使えるクラウドサービスです。2025年8月時点では時間単価2USDと、なかなかありがたい価格設定になっています。
何といってもMI300Xの魅力は、192GBという豊富なVRAMです。これだけあると、学習時のバッチサイズを大幅に上げられるし、30Bパラメータクラスのモデルでも、シングルGPUでガチ学習ができます。H100(80GB)だとFSDPやDeepspeed Z3を使って分散学習するしかないような場面でも、MI300Xなら1枚で済んでしまうケースが多いです。マジ感謝です。
使い始める前に準備しておくもの
実際に使ってみて、これがあると作業が格段に楽になるというものを挙げておきます:
- AWS S3ストレージ(互換サービスでもOK)
- Hugging Faceアカウント
- AIへの愛情
- トラブルを楽しむ心
最後の2つは冗談っぽく聞こえるかもしれませんが、案外重要です。新しい環境では予期しないエラーに遭遇することもあるので、それを楽しめる気持ちがあると良いでしょう。
セットアップの流れ
SSH接続の準備
まずはLinuxマシンで生成したSSH公開鍵を、Developer CloudのSettingsページに登録します。これをやっておけば、後々の接続が楽になります。
AMD GPU Dropletsの作成
Dockerイメージを選ぶ際は、「Ubuntu 24.04 + ROCm」のプレーンな環境を強くお勧めします。プリインストール版のPyTorchパッケージは、動作しないモジュールが混じっていることがあったので、素の環境から自分で構築する方が確実です。
VSCodeで開発環境を整える
DropletのIPアドレスが表示されたら、rootユーザーでVSCodeから接続します。慣れ親しんだ環境で作業できるのは、やっぱり快適ですね。
必要ツールのインストール
ここからは、開発を効率化するためのツールを入れていきます:
byobu
セッションが切れても作業が継続されるので、長時間の学習を回す際には便利です。
Miniconda
Python環境の管理に使います。
自分はvenv非対応な人間なので重宝しています
PyTorch
ROCm版をインストールします。
基本的にはStable版をお勧めします
AWS CLI
S3との連携で重宝します。
チェックポイントを自動でUploadするスクリプトを書くと、
万が一鯖が落ちても、心は健全に維持できます
huggingface_hub
モデルのダウンロード・アップロードがスムーズになります。
Wan DB
学習中の状況を確認できます。
スパイクや、NaNなどがでても即座に対応することができます。
気持ちの落ち込みを最小限に抑えることが可能になります。
使ってみた感想
正直、最初はAMD GPUでの学習に不安がありましたが、実際に使ってみるとNVIDIA環境と遜色なく動作します。特に大きなモデルを扱う際のVRAMの余裕は、心の余裕を大きくしてくれます。
時間単価も手頃なので、個人研究者や小規模なチームでも気軽に試せるのが良いところです。H100クラスターを借りるより圧倒的に安く済みますし、シングルGPUで完結するタスクなら、むしろこちらの方が効率的かもしれません。
Rocmつかおうね。
Discussion