📖

OpsJAWS Meetup#25 で LT した資料を公開します 〜 みんなが幸せなインシデント管理

2023/09/05に公開

こんにちは。
ご機嫌いかがでしょうか。
"No human labor is no human error" が大好きな吉井 亮です。

運営しているコミュニティ OpsJAWS で「みんなが幸せなインシデント管理」というタイトルで LT しましたので資料を公開します。

資料

サマリー

インシデントとは「サービス停止、または、品質低下によってユーザーに影響を与える事象」。
インシデント管理とは「各所への影響を最小限に留め、早期にサービスを復旧させるプロセス」。

幸せになるために

アラートに意味をもたせる。アラート見ればどこで何が起きているのか理解できるようにする。

インシデント対応体制は SLO に合わせて構築する。数時間の対応ならオンコールでもいいが、1時間未満の対応が必要なら NOC を検討すべき。

なにごとも手順書を用意しておく。回復手順もそうだがエスカレーションも手順化しておくと気持ちが楽。

インシデントは繰り返さない。根本対策を!

精神的、肉体的負担が増えてきたらインシデント対応から離れてもいい。

持ち回り公平に。偏らない、当番だけが大変な思いをしないように。

オンコール対応やオンコール待機に手当てを。

他登壇者の資料

AWS Systems Manager Incident Manager で実現するインシデント管理

インシデント対応の成熟度とベストプラクティス

レポート

参加してくださった方々のレポートです。

[レポート]『OpsJAWS Meetup#25 インシデント管理』に参加しました #opsjaws #jawsug
[レポート]OpsJAWS Meetup#25 インシデント管理に参加しました。

Discussion