💾
ProxmoxサーバーRAID障害からの再構築体験記

2025/08/10に公開
 はじめに先日、運用していた自作サーバーのProxmox環境でRAID障害が発生し、バックアップの漏れから復元すらできず大変なことになりました。今回はこの経験と再構築の流れ、反省点、学んだことをまとめます。

 1. RAID障害発生！RAID-Zでチェックサムエラーの通知を受けていたものの、しばらくは問題なく稼働していたため放置していた。

zpool statusで状況確認したところ、日常的に自動実行されているzpool scrubでもエラーは解消せず、自己修復は困難と判断。
エラーは多数見られたが、READ/WRITEエラーが検出されなかったため、物理ディスクの故障は可能性が低いと考えた。
root@pve:~# zpool status
pool: rpool
state: DEGRADED
status: One or more devices has experienced an error resulting in data
corruption. Applications may be affected.
action: Restore the file in question if possible. Otherwise restore the
entire pool from backup.
see: https://openzfs.github.io/openzfs-docs/msg/ZFS-8000-8A
scan: scrub repaired 0B in 01:55:29 with 72 errors on Mon Dec 16 18:41:05 2024
config:

NAME STATE READ WRITE CKSUM
rpool DEGRADED 0 0 0
raidz1-0 DEGRADED 0 0 0
ata-WDC_WD5000AZLX-75K2TA0_WD-WCC6Z2THNC0D-part3 DEGRADED 0 0 24 too many errors
ata-ST500DM009-2F110A_Z993SE82-part3 DEGRADED 0 0 24 too many errors
ata-TOSHIBA_MQ01ABF050_68QQTP2ZT-part3 DEGRADED 0 0 24 too many errors
ata-WDC_WD5000AZLX-75K2TA0_WD-WCC6Z6JCYALX-part3 ONLINE 0 0 0
logs
mirror-1 ONLINE 0 0 0
sde2 ONLINE 0 0 0
nvme0n1p2 ONLINE 0 0 0
cache
sde3 ONLINE 0 0 0

errors: 73 data errors, use '-v' for a list

 2. 問題の原因と診断
障害の主因：

たぶん、突然の電源断によるデータ破損でチェックサム不一致。

UPSがあるのだが、一時期電源の接続ミスで直接商用電源につないでいた。そのときに発生した停電でやられたのかも。

 3. 再構築への決断RAID再構成＆OS再インストールを決断。
全VMのバックアップとProxmox最新版ISOでクリーンインストール。
ここでバックアップ漏れに気付かずやらかす。

仮想マシン・コンテナなど全て手作業で復旧。Proxmoxの設定はバックアップ。
Dockerを動かしていたVMのバックアップ漏れで復旧できず諦めて捨てた。


 4. 対策と今後の運用RAID構成の見直し：

そもそも、個人開発の開発用、テスト環境がメインなので稼働性を高める必要なし。

RAIDよりも定期的なバックアップが重要。
バックアップ戦略の強化：

定期自動バックアップするためのスケジュール見直し。
障害アラート・ログ監視の徹底：

メールやdiscrod通知で早期察知できるよう設定変更。

 5. まとめと教訓サーバー運用に絶対安全はない！
データ消失＝本当につらい

バックアップは多重化＆自動化が絶対的安心材料
障害対応を通じて、インフラの整理・強化ができたのは唯一の救い。

 おわりにRAIDやZFSを使うなら安定電源・バックアップ・冗長性・監視を徹底しましょう。

今回の失敗談を今後の安定運用に活かしていきます。

同じく自作サーバー運用している方の参考になれば幸いです！

 コメント歓迎！サーバー運用での失敗・工夫・疑問など、何でもお待ちしています。
はじめに

1. RAID障害発生！

2. 問題の原因と診断

3. 再構築への決断

4. 対策と今後の運用

5. まとめと教訓

おわりに

コメント歓迎！

Discussion