🙌

解析サーバー環境構築

2024/09/01に公開

はじめに

今回解析用PCを新しく組むことになり、その際にAMDのEPYCプロセッサを採用しました。しかし、その際にいくつかトラブルが発生したので、その概要と解決したものについては解決方法を書いていきます。

使用機材は以下のとおりです。なおサーバー構築に関しては初心者であるため、記載内容については温かい目で見ていただけると幸いです。

  • マザーボード: Supermicro H12DSi-NT6
  • CPU: AMD EPYC 7C13 (Gigazineさんの記事で少し話題になっていたものです)
  • メモリ: SK Hynix DDR4 2666 MHz 64GB (01RMSK2666V64GE) × 8
  • SSD: Samsung 990 Pro 4TB
  • GPU: NVIDIA RTX 3070
  • 電源: NZXT C1200 Gold PA-2G1BB-JP
  • CPUクーラー: Noctua NH-U14S TR4-SP3
  • OS: ~Windows 11 Pro~ Ubuntu 20.04.2 64bit Server

対応OSについて

Supermicroのページに対応OSが記載されていました。以下のリンクから確認できます。

代表的なものですと以下のものが対応しています。

  • Windows Server 2016
  • Windows Server 2019
  • Ubuntu 20.04.2 64bit Server
  • CentOS 8.3 64bit
  • RHEL 8.3 64bit

今回はこちらの対応OSには乗っていないですが、Windows 11 Proをインストールを試みます。

No Media Presentの表示

起動時にNo Media Presentが表示され、Bootデバイスが一見するとないように見える状態でした。結果としてUEFI Shellから以下の手順でコマンドを実行しました。

  1. mapコマンドでデバイスを確認
  2. FS(ファイルシステムの略)が付いているデバイスを探す
    • 例として、FS0FS1など (以下はFS0の場合)とします
  3. shellにfs0:と入力して、さらにlsコマンドでデバイス内のファイルを確認
  4. EFIディレクトリがあれば正解。EFI\BOOT\BOOTX64.EFIをコマンドに入力して実行する

Windows起動後

Windowsインストール後はLanのドライバが入っていないため、アップデートや認証を行うことができません。そのため、別のPCからドライバをダウンロードしました。ダウンロード先はこちらです。

順序としては、Windowsでアップデートを掛ける前に、上記のサイトからSetup_64.exeを実行し、その後Windows Updateを行ったほうがいいように思います。(順序を逆にしてしまったため、フリーズとブルスク(BAD_POOL_CALLER)が発生しました)

また最小構成でセットアップを行った後、GPUを挿入し、追加のドライバをインストールしました。

NIC

搭載されているNICはBroadcom 57416 10GbEです。Driver CD中の.isoを7zip等で解答し、Broadcom\Windows\10G_Driver中のドライバをインストールします。

マザーボード上のLED2の点滅(未解決)

起動時からLED2 (Overheat/Fan Failure LED)が点滅している状態です。REDDITのこちらの記事によると、Noctuaとの相性問題であるとのことです。

基本的に上記のリンクの手順に沿って行えば、解決されるはずのですが、現時点でもLEDは点滅状態です。CPUの温度は正常です。また途中で必要なIMPIのパスワードは、デフォルトの状態からマザーボード上に記載へ変更となったようです。

impiutilの引数の意味

上記のリンクでは以下のコマンドを入力しています。

ipmiutil sensor -N IP -U ADMIN -P PASS -n SNum -u 100:100:100:25400:25400:25500

この最後の6つの数字の意味が不明でしたので、調べてみます。以下はこちらのサイトからの引用です。

-u Set unique threshold values. The values are specified in a string of threshold values. It can be in raw hex characters or in float values. All 6 possible thresholds must be specified, but only the ones that are valid for this sensor will be applied. These values are validated for ordering. For example:
-u 6:5:4:60:65:69 (float) or
-u 0x0605043c4145 (raw hex)
would mean 0x06=noncrit_lo, 0x05=crit_lo, 0x04=nonrec_lo, 0x3c=noncrit_hi, 0x41=crit_hi, 0x45=nonrec_hi.

floatあるいはraw hexで指定することがでるので、単位は温度かRPMでしょうか...?

  • nonrec_lo: lower bound of non-recordable range or non-recoverable range?

TODO

  • 冷却ファンの交換

一部のUSBポートが認識されない

認識されないUSBポートがあります。

  • バックパネルのUSB2.0ポート
  • フロントパネルのUSB3.0ポート

対応(というより知識不足)

System Block Diagram(Figure 1-4)を見ると、上記のポートはSocket 1に接続されている。2つ目のCPUを購入する必要がありますね...

また、Socket 0のみのシングルCPU構成の場合、以下の成約があります。

  • PCIEのSLOTは6から3までが使用可能
  • SATAポートは3:0が使用可能

SSDのS.M.A.R.T.エラー (未解決)

何日か後に、起動直後にsmart status badが表示されるようになりました。ブートドライブとしても表示されず、Windowsが起動しなくなりました。

M.2 SSD用のケースを購入し、他のPCでCrystalDiskInfoを確認したところ、01: Critical Warningの生の値が4となっていました。現在(2024/09/11)Western Digital Dashbordで確認中です。

Bootドライブで起動後に画面が表示されない

Gparted LiveやUbuntuのインストール用ブートメディアを挿入しても、画面が表示されなくなりました。

対応

上記のSSDのS.M.A.R.T.エラーが原因でした。また、GPUの取り外しとVGA出力、BMC/IPMIは利用しない形で直接画面出力をするようにしました。

SATA SSDが認識されない

SATA SSDを接続しても認識されない状態でした。BIOS上でも認識されていませんでした。

解決策

SATA電源ケーブルがファンコントローラーと共用していたため、電力不足に陥っていたようです。SSD用として別途電源供給を行い、認識されるようになりました。

GitHubで編集を提案

Discussion