「アラート」の分類
「アラート」とは
- アラートとは、システムの問題について、人間の行動を意図した通知
- アラートは通知の一種といえる
- より絞れば、アラートとはシステムの問題についての通知の一種
An alert is something which requires a human to perform an action.
アラートとは、人間に行動を要求するものである。
https://response.pagerduty.com/oncall/alerting_principles/
アラート
人間に読まれることを意図した通知で、バグやチケットキュー、メールアドレス、ページャーなどのシステムにプッシュされます。
これらのアラートは、それぞれチケット、メールアラート、ページに分類されます。
https://www.oreilly.co.jp/books/9784873117911/ 『SRE サイトリライアビリティエンジニアリング』6.1
アラート
何かが壊れていて、誰かがすぐに修復しなければならない、あるいは、もうすぐ何かが壊れるかもしれないので、誰かが早めに確認すべきであることを通知する。
https://www.oreilly.co.jp/books/9784873117911/ 『SRE サイトリライアビリティエンジニアリング』6.2
システム問題通知の分類
- アラート通知
- 人間の行動が必要な場合の通知
- 情報通知
- 人間の行動が不要な場合の通知
システム中の、ごく狭い範囲のコンポーネントに対するセキュリティ監査を行っているのでなければ、単に「何か少しおかしい」といったことでは、決してアラートを発してはなりません。
https://www.oreilly.co.jp/books/9784873117911/ 『SRE サイトリライアビリティエンジニアリング』6.2
アラート通知の分類
- 人間がすぐに行動する必要がある通知
- 人間があとで行動すればよい通知
- 人間が次営業日に行動する必要がある通知
- 人間がどこかのタイミングで行動する必要がある通知
優先度 アラート 応答 高い 優先度の高い PagerDuty アラートを 24 時間 365 日提供します。 即時の人間による対応が必要です。 中くらい 営業時間中のみの高優先度 PagerDuty アラート。 24 時間以内に人間によるアクションが必要です。 低い 低優先度の PagerDuty アラート (24 時間 365 日)。 ある時点で人間のアクションが必要になります。
アラート
人間が即座にアクションを起こして対応し、状況を改善しなければならないことが生じている、あるいは生じようとしていることを知らせます。
チケット
人間がアクションを起こさなければならないことを知らせます。
ただしチケットの場合は、即座である必要はありません。
システムが自動的に対処できない状況が生じているものの、人間が対応するのに数日かかったとしても、その結果障害が引き起こされることはありません。
https://www.oreilly.co.jp/books/9784873117911/ 『SRE サイトリライアビリティエンジニアリング』1.3.3
情報通知の用途
- アラート通知として設定したいが、精度に自信が持てていなかったり実績がなかったりする場合
- 分析のきっかけにする場合
新しいアラートは必ず、典型的なプロダクションの状況を経験するのに十分な期間、テストモードで動作させてください。
これは定期的なソフトウェアのロールアウト、クラウドプロバイダーによるメンテナンスイベント、週次の負荷のピークなどです。
おそらくは一週間のテストが適切でしょう。
とはいえ、この適切なウィンドウの長さはアラートとシステムに依存します。
https://www.oreilly.co.jp/books/9784873119137/ 『サイトリライアビリティワークブック』8.3.1.2
優先度 アラート 応答 通知 PagerDuty イベントを抑制しました。 応答は必要ありません。情報提供のみです。
備考
- 「アラート」はアラート通知の略だと捉えられる
- 細かく見れば、情報通知の結果、人間が行動することはある(例えば通知精度の検証)のだが、例えばオンコール担当にそれを要求するわけではない
Discussion