💾
ProxmoxサーバーRAID障害からの再構築体験記
はじめに
先日、運用していた自作サーバーのProxmox環境でRAID障害が発生し、バックアップの漏れから復元すらできず大変なことになりました。今回はこの経験と再構築の流れ、反省点、学んだことをまとめます。
1. RAID障害発生!
- RAID-Zでチェックサムエラーの通知を受けていたものの、しばらくは問題なく稼働していたため放置していた。
-
zpool status
で状況確認したところ、日常的に自動実行されているzpool scrub
でもエラーは解消せず、自己修復は困難と判断。 - エラーは多数見られたが、READ/WRITEエラーが検出されなかったため、物理ディスクの故障は可能性が低いと考えた。
root@pve:~# zpool status
pool: rpool
state: DEGRADED
status: One or more devices has experienced an error resulting in data
corruption. Applications may be affected.
action: Restore the file in question if possible. Otherwise restore the
entire pool from backup.
see: https://openzfs.github.io/openzfs-docs/msg/ZFS-8000-8A
scan: scrub repaired 0B in 01:55:29 with 72 errors on Mon Dec 16 18:41:05 2024
config:
NAME STATE READ WRITE CKSUM
rpool DEGRADED 0 0 0
raidz1-0 DEGRADED 0 0 0
ata-WDC_WD5000AZLX-75K2TA0_WD-WCC6Z2THNC0D-part3 DEGRADED 0 0 24 too many errors
ata-ST500DM009-2F110A_Z993SE82-part3 DEGRADED 0 0 24 too many errors
ata-TOSHIBA_MQ01ABF050_68QQTP2ZT-part3 DEGRADED 0 0 24 too many errors
ata-WDC_WD5000AZLX-75K2TA0_WD-WCC6Z6JCYALX-part3 ONLINE 0 0 0
logs
mirror-1 ONLINE 0 0 0
sde2 ONLINE 0 0 0
nvme0n1p2 ONLINE 0 0 0
cache
sde3 ONLINE 0 0 0
errors: 73 data errors, use '-v' for a list
2. 問題の原因と診断
-
障害の主因:
たぶん、突然の電源断によるデータ破損でチェックサム不一致。
UPSがあるのだが、一時期電源の接続ミスで直接商用電源につないでいた。そのときに発生した停電でやられたのかも。
3. 再構築への決断
- RAID再構成&OS再インストールを決断。
- 全VMのバックアップとProxmox最新版ISOでクリーンインストール。
- ここでバックアップ漏れに気付かずやらかす。
- 仮想マシン・コンテナなど全て手作業で復旧。Proxmoxの設定はバックアップ。
- Dockerを動かしていたVMのバックアップ漏れで復旧できず諦めて捨てた。
4. 対策と今後の運用
-
RAID構成の見直し:
そもそも、個人開発の開発用、テスト環境がメインなので稼働性を高める必要なし。
RAIDよりも定期的なバックアップが重要。 -
バックアップ戦略の強化:
定期自動バックアップするためのスケジュール見直し。 -
障害アラート・ログ監視の徹底:
メールやdiscrod通知で早期察知できるよう設定変更。
5. まとめと教訓
- サーバー運用に絶対安全はない!
- データ消失=本当につらい
バックアップは多重化&自動化が絶対的安心材料 - 障害対応を通じて、インフラの整理・強化ができたのは唯一の救い。
おわりに
RAIDやZFSを使うなら安定電源・バックアップ・冗長性・監視を徹底しましょう。
今回の失敗談を今後の安定運用に活かしていきます。
同じく自作サーバー運用している方の参考になれば幸いです!
コメント歓迎!
サーバー運用での失敗・工夫・疑問など、何でもお待ちしています。
Discussion