Ryzen AI MAX+ 395がROCm 6.4.4でPreview Supportされたので導入してみる

はじめに
先日ROCm 7.0の安定版が公開されたものの、Ryzen AI MAX+ 395がサポートされておらずモヤモヤしていたのだが、いつの間にかROCm 6.4.4でRyzen AI MAX+ 395をサポートしたらしい。pytorchも使えるようだ。
というわけで、早速導入してみる。
環境
- EVO-X2(カーネル更新後)

Install Ryzen Software for Linux with ROCm
下記の手順に従って進める。
カーネルのインストール
Ryzen 上の ROCm の場合、 6.14 OEMカーネルで動作する必要がある。
$ sudo apt update && sudo apt-get install linux-oem-24.04c
インストールができたら再起動し、6.14 OEMカーネルで起動していることを確認する。
$ uname -r
6.14.0-1012-oem
もしカーネルが切り替わっていない場合は、下記の記事などを参考にカーネルを変更する。
AMD GPUドライバーのインストール
$ wget https://repo.radeon.com/amdgpu-install/6.4.4/ubuntu/noble/amdgpu-install_6.4.60404-1_all.deb
$ sudo apt install ./amdgpu-install_6.4.60404-1_all.deb
ROCm 6.4.4のインストール
$ amdgpu-install -y --usecase=rocm --no-dkms
$ sudo usermod -a -G render,video $LOGNAME # グループの権限を設定
設定が完了したら再起動する。

共有メモリの構成
カーネルのTranslation Table Manager(TTM)ページ設定を変更することで共有メモリを増加する。
$ sudo apt install pipx
$ pipx ensurepath --force
amd-debug-toolsをインストールする。
$ pipx install amd-debug-tools
installed package amd-debug-tools 0.2.8, installed using Python 3.12.3
These apps are now globally available
- amd-bios
- amd-pstate
- amd-s2idle
- amd-ttm
done! ✨ 🌟 ✨
ツールを実行してamd-ttm、共有メモリの現在の設定を照会する。
$ amd-ttm
💻 Current TTM pages limit: 16469033 pages (62.82 GB)
💻 Total system memory: 125.65 GB
引数 (単位は GB)を使用して共有メモリ設定を再構成する。下記は一例。
$ amd-ttm --set 100
🐧 Successfully set TTM pages limit to 26214400 pages (100.00 GB)
🐧 Configuration written to /etc/modprobe.d/ttm.conf
○ NOTE: You need to reboot for changes to take effect.
Would you like to reboot the system now? (y/n): y

pytorchのインストール
こちらにやり方が書いてあるが、pytorchの導入は仮想環境で行うべきだろう。
ComfyUIに導入してみる
参考までにComfyUIでの導入方法を示す。
既存の環境を汚さないようにgit cloneから始める。
$ git clone https://github.com/comfyanonymous/ComfyUI.git
$ cd ComfyUI
$ mv pyproject.toml pyproject.toml.orig
$ uv init --python 3.12
$ uv venv
これでuv環境が整った。
-
torch, torchvision, torchaudio, pytorch_triton_rocm
のwhlをダウンロード
$ wget https://repo.radeon.com/rocm/manylinux/rocm-rel-6.4.4/torch-2.8.0%2Brocm6.4.4.git36fa4b24-cp312-cp312-linux_x86_64.whl
$ wget https://repo.radeon.com/rocm/manylinux/rocm-rel-6.4.4/torchvision-0.23.0%2Brocm6.4.4.git824e8c87-cp312-cp312-linux_x86_64.whl
$ wget https://repo.radeon.com/rocm/manylinux/rocm-rel-6.4.4/pytorch_triton_rocm-3.4.0%2Brocm6.4.4.gitf9e5bf54-cp312-cp312-linux_x86_64.whl
$ wget https://repo.radeon.com/rocm/manylinux/rocm-rel-6.4.4/torchaudio-2.8.0%2Brocm6.4.4.git6e1c7fe9-cp312-cp312-linux_x86_64.whl
- pytorchのインストール
$ uv pip install torch-2.8.0+rocm6.4.4.git36fa4b24-cp312-cp312-linux_x86_64.whl torchaudio-2.8.0+rocm6.4.4.git6e1c7fe9-cp312-cp312-linux_x86_64.whl torchvision-0.23.0+rocm6.4.4.git824e8c87-cp312-cp312-linux_x86_64.whl pytorch_triton_rocm-3.4.0+rocm6.4.4.gitf9e5bf54-cp312-cp312-linux_x86_64.whl
- 他のライブラリのインストール
$ uv pip install -r requirements.txt
$ uv pip install ftfy diffusers accelerate gguf sageattention
- 起動
$ uv run main.py --use-pytorch-cross-attention --listen
Checkpoint files will always be loaded safely.
Total VRAM 131072 MB, total RAM 127941 MB
pytorch version: 2.8.0+rocm6.4.4.git36fa4b24
AMD arch: gfx1151
ROCm version: (6, 4)
Set vram state to: NORMAL_VRAM
Device: cuda:0 AMD Radeon Graphics : native
Using pytorch attention
Python version: 3.12.3 (main, Aug 14 2025, 17:47:21) [GCC 13.3.0]
ComfyUI version: 0.3.60
・・・
・・・
・・・
To see the GUI go to: http://0.0.0.0:8188
To see the GUI go to: http://[::]:8188
以上でComfyUIサーバーが起動できた。webブラウザからhttp://localhost:8188
にアクセスすれば慣れ親しんだComfyUIのGUI画面を開くことができる。

結果
とりあえず画像生成のみを試してみた。結果としては、電力制約を120WにしたRTX 3060の倍の生成時間がかかることがわかった。残念!!ROCm7.0でもっと速く動くことを切に願う。
動画生成とかもできるかも知れないけれど、画像生成がRTX3060より遅い時点であまり期待はできないと思われる。。。RTX3060でVRAM不足で生成できなくなったときには役に立つかも知れないが、今の所そのような場面に遭遇したことは少ない。
すぐに評価するかわからないが、気が向いたら追記する。

追記
試しにこちらで公開されているワークフローをお借りして動画生成を行った。
結論から言うと、RTX3060に比べて10倍以上遅い上に、動画生成の途中でハングしてしまい生成に失敗した。Previewとはいえ、AMDによるサポートでこの様子だと、正式にサポートされたとしても速度や安定性の問題が本当に解決するのか不安になってくる。
まずは最低限安定性は確保してもらえるとありがたい。速度はRTX3060と同等の性能はあるはずなので、せめて同じくらいにならないものか。理論的に同等の性能を持っていても、それを実現できなければそれは幻になってしまう。