💾

ProxmoxサーバーRAID障害からの再構築体験記

に公開

はじめに

先日、運用していた自作サーバーのProxmox環境でRAID障害が発生し、バックアップの漏れから復元すらできず大変なことになりました。今回はこの経験と再構築の流れ、反省点、学んだことをまとめます。


1. RAID障害発生!

  • RAID-Zでチェックサムエラーの通知を受けていたものの、しばらくは問題なく稼働していたため放置していた。
  • zpool statusで状況確認したところ、日常的に自動実行されているzpool scrubでもエラーは解消せず、自己修復は困難と判断。
  • エラーは多数見られたが、READ/WRITEエラーが検出されなかったため、物理ディスクの故障は可能性が低いと考えた。
root@pve:~# zpool status
pool: rpool
state: DEGRADED
status: One or more devices has experienced an error resulting in data
corruption. Applications may be affected.
action: Restore the file in question if possible. Otherwise restore the
entire pool from backup.
see: https://openzfs.github.io/openzfs-docs/msg/ZFS-8000-8A
scan: scrub repaired 0B in 01:55:29 with 72 errors on Mon Dec 16 18:41:05 2024
config:

NAME STATE READ WRITE CKSUM
rpool DEGRADED 0 0 0
raidz1-0 DEGRADED 0 0 0
ata-WDC_WD5000AZLX-75K2TA0_WD-WCC6Z2THNC0D-part3 DEGRADED 0 0 24 too many errors
ata-ST500DM009-2F110A_Z993SE82-part3 DEGRADED 0 0 24 too many errors
ata-TOSHIBA_MQ01ABF050_68QQTP2ZT-part3 DEGRADED 0 0 24 too many errors
ata-WDC_WD5000AZLX-75K2TA0_WD-WCC6Z6JCYALX-part3 ONLINE 0 0 0
logs
mirror-1 ONLINE 0 0 0
sde2 ONLINE 0 0 0
nvme0n1p2 ONLINE 0 0 0
cache
sde3 ONLINE 0 0 0

errors: 73 data errors, use '-v' for a list

2. 問題の原因と診断

  • 障害の主因
    たぶん、突然の電源断によるデータ破損でチェックサム不一致。
    UPSがあるのだが、一時期電源の接続ミスで直接商用電源につないでいた。そのときに発生した停電でやられたのかも。

3. 再構築への決断

  • RAID再構成&OS再インストールを決断。
  • 全VMのバックアップとProxmox最新版ISOでクリーンインストール。
    • ここでバックアップ漏れに気付かずやらかす。
  • 仮想マシン・コンテナなど全て手作業で復旧。Proxmoxの設定はバックアップ。
    • Dockerを動かしていたVMのバックアップ漏れで復旧できず諦めて捨てた。

4. 対策と今後の運用

  • RAID構成の見直し
    そもそも、個人開発の開発用、テスト環境がメインなので稼働性を高める必要なし。
    RAIDよりも定期的なバックアップが重要。

  • バックアップ戦略の強化
    定期自動バックアップするためのスケジュール見直し。

  • 障害アラート・ログ監視の徹底
    メールやdiscrod通知で早期察知できるよう設定変更。


5. まとめと教訓

  • サーバー運用に絶対安全はない!
  • データ消失=本当につらい
    バックアップは多重化&自動化が絶対的安心材料
  • 障害対応を通じて、インフラの整理・強化ができたのは唯一の救い。

おわりに

RAIDやZFSを使うなら安定電源・バックアップ・冗長性・監視を徹底しましょう。
今回の失敗談を今後の安定運用に活かしていきます。
同じく自作サーバー運用している方の参考になれば幸いです!


コメント歓迎!

サーバー運用での失敗・工夫・疑問など、何でもお待ちしています。


Discussion