🐥

本番運用で「触る前に見る」を徹底する方法

に公開

本番運用で「触る前に見る」を徹底する方法

本番環境で障害や負荷が発生したとき、焦って操作する前に状況を把握することが最も重要です。
5年の現場経験で、初動の正確さが対応スピードと被害の大きさを決めます。


1. 初動で見るべき情報

  • DBセッション状況V$SESSIONでアクティブや待機を確認
  • 負荷状況:CPU・メモリ・I/Oの使用状況をOSレベルで確認
  • ログ:alert.logやアプリログを保全
  • 最近の変更:パラメータやジョブ、デプロイ状況を確認

触る前にまず情報を固定化することで、原因特定の精度が格段に上がります。


2. 「触る前に見る」を習慣化する

  • 障害時は最初の3分で見るだけを徹底
  • 記録は簡潔で十分、あとから追跡できればOK
  • 小さな変更は原因特定後に行う

習慣化すると、焦って誤操作するリスクが大幅に減ります。


3. チームとの情報共有もセット

  • 初動で確認した情報を簡潔にチームに報告
  • 「何が起きたか」「どこを見たか」を共有するだけで次の判断がスムーズ
  • 個人判断だけで操作するリスクを減らせる

まとめ

本番運用で重要なのは、

  1. 触る前に見る
  2. 状況を固定化
  3. チームと情報共有
    この順序を徹底するだけで、障害対応の精度とスピードが格段に向上します。

Discussion