解析サーバー環境構築
はじめに
今回解析用PCを新しく組むことになり、その際にAMDのEPYCプロセッサを採用しました。しかし、その際にいくつかトラブルが発生したので、その概要と解決したものについては解決方法を書いていきます。
使用機材は以下のとおりです。なおサーバー構築に関しては初心者であるため、記載内容については温かい目で見ていただけると幸いです。
- マザーボード: Supermicro H12DSi-NT6
- CPU: AMD EPYC 7C13 (Gigazineさんの記事で少し話題になっていたものです)
- メモリ: SK Hynix DDR4 2666 MHz 64GB (01RMSK2666V64GE) × 8
- SSD: Samsung 990 Pro 4TB
- GPU: NVIDIA RTX 3070
- 電源: NZXT C1200 Gold PA-2G1BB-JP
- CPUクーラー: Noctua NH-U14S TR4-SP3
- OS: ~Windows 11 Pro~ Ubuntu 20.04.2 64bit Server
対応OSについて
Supermicroのページに対応OSが記載されていました。以下のリンクから確認できます。
代表的なものですと以下のものが対応しています。
- Windows Server 2016
- Windows Server 2019
- Ubuntu 20.04.2 64bit Server
- CentOS 8.3 64bit
- RHEL 8.3 64bit
今回はこちらの対応OSには乗っていないですが、Windows 11 Proをインストールを試みます。
No Media Present
の表示
起動時にNo Media Present
が表示され、Bootデバイスが一見するとないように見える状態でした。結果としてUEFI Shellから以下の手順でコマンドを実行しました。
-
map
コマンドでデバイスを確認 -
FS
(ファイルシステムの略)が付いているデバイスを探す- 例として、
FS0
やFS1
など (以下はFS0
の場合)とします
- 例として、
- shellに
fs0:
と入力して、さらにls
コマンドでデバイス内のファイルを確認 -
EFI
ディレクトリがあれば正解。EFI\BOOT\BOOTX64.EFI
をコマンドに入力して実行する
Windows起動後
Windowsインストール後はLanのドライバが入っていないため、アップデートや認証を行うことができません。そのため、別のPCからドライバをダウンロードしました。ダウンロード先はこちらです。
順序としては、Windowsでアップデートを掛ける前に、上記のサイトからSetup_64.exe
を実行し、その後Windows Updateを行ったほうがいいように思います。(順序を逆にしてしまったため、フリーズとブルスク(BAD_POOL_CALLER)が発生しました)
また最小構成でセットアップを行った後、GPUを挿入し、追加のドライバをインストールしました。
NIC
搭載されているNICはBroadcom 57416 10GbEです。Driver CD中の.iso
を7zip等で解答し、Broadcom\Windows\10G_Driver
中のドライバをインストールします。
マザーボード上のLED2の点滅(未解決)
起動時からLED2 (Overheat/Fan Failure LED)が点滅している状態です。REDDITのこちらの記事によると、Noctuaとの相性問題であるとのことです。
基本的に上記のリンクの手順に沿って行えば、解決されるはずのですが、現時点でもLEDは点滅状態です。CPUの温度は正常です。また途中で必要なIMPIのパスワードは、デフォルトの状態からマザーボード上に記載へ変更となったようです。
impiutilの引数の意味
上記のリンクでは以下のコマンドを入力しています。
ipmiutil sensor -N IP -U ADMIN -P PASS -n SNum -u 100:100:100:25400:25400:25500
この最後の6つの数字の意味が不明でしたので、調べてみます。以下はこちらのサイトからの引用です。
-u Set unique threshold values. The values are specified in a string of threshold values. It can be in raw hex characters or in float values. All 6 possible thresholds must be specified, but only the ones that are valid for this sensor will be applied. These values are validated for ordering. For example:
-u 6:5:4:60:65:69 (float) or
-u 0x0605043c4145 (raw hex)
would mean 0x06=noncrit_lo, 0x05=crit_lo, 0x04=nonrec_lo, 0x3c=noncrit_hi, 0x41=crit_hi, 0x45=nonrec_hi.
float
あるいはraw hex
で指定することがでるので、単位は温度かRPMでしょうか...?
- nonrec_lo: lower bound of non-recordable range or non-recoverable range?
TODO
- 冷却ファンの交換
一部のUSBポートが認識されない
認識されないUSBポートがあります。
- バックパネルのUSB2.0ポート
- フロントパネルのUSB3.0ポート
対応(というより知識不足)
System Block Diagram(Figure 1-4)を見ると、上記のポートはSocket 1に接続されている。2つ目のCPUを購入する必要がありますね...
また、Socket 0のみのシングルCPU構成の場合、以下の成約があります。
- PCIEのSLOTは6から3までが使用可能
- SATAポートは3:0が使用可能
SSDのS.M.A.R.T.エラー (未解決)
何日か後に、起動直後にsmart status bad
が表示されるようになりました。ブートドライブとしても表示されず、Windowsが起動しなくなりました。
M.2 SSD用のケースを購入し、他のPCでCrystalDiskInfoを確認したところ、01: Critical Warning
の生の値が4となっていました。現在(2024/09/11)Western Digital Dashbordで確認中です。
Bootドライブで起動後に画面が表示されない
Gparted LiveやUbuntuのインストール用ブートメディアを挿入しても、画面が表示されなくなりました。
対応
上記のSSDのS.M.A.R.T.エラーが原因でした。また、GPUの取り外しとVGA出力、BMC/IPMIは利用しない形で直接画面出力をするようにしました。
SATA SSDが認識されない
SATA SSDを接続しても認識されない状態でした。BIOS上でも認識されていませんでした。
解決策
SATA電源ケーブルがファンコントローラーと共用していたため、電力不足に陥っていたようです。SSD用として別途電源供給を行い、認識されるようになりました。
Discussion