🐥
本番運用で「触る前に見る」を徹底する方法
本番運用で「触る前に見る」を徹底する方法
本番環境で障害や負荷が発生したとき、焦って操作する前に状況を把握することが最も重要です。
5年の現場経験で、初動の正確さが対応スピードと被害の大きさを決めます。
1. 初動で見るべき情報
-
DBセッション状況:
V$SESSIONでアクティブや待機を確認 - 負荷状況:CPU・メモリ・I/Oの使用状況をOSレベルで確認
- ログ:alert.logやアプリログを保全
- 最近の変更:パラメータやジョブ、デプロイ状況を確認
触る前にまず情報を固定化することで、原因特定の精度が格段に上がります。
2. 「触る前に見る」を習慣化する
- 障害時は最初の3分で見るだけを徹底
- 記録は簡潔で十分、あとから追跡できればOK
- 小さな変更は原因特定後に行う
習慣化すると、焦って誤操作するリスクが大幅に減ります。
3. チームとの情報共有もセット
- 初動で確認した情報を簡潔にチームに報告
- 「何が起きたか」「どこを見たか」を共有するだけで次の判断がスムーズ
- 個人判断だけで操作するリスクを減らせる
まとめ
本番運用で重要なのは、
- 触る前に見る
- 状況を固定化
- チームと情報共有
この順序を徹底するだけで、障害対応の精度とスピードが格段に向上します。
Discussion