Open1
オライリー 入門 監視
- アラートはユーザ目線での監視項目を考えるべき(レイテンシーなど)
- ネットワーク監視にSNMPは向いていない。エージェントインストールや、集約サーバが必要になってしまう。
- アプリケーションの監視には、/healthエンドポイントを利用する。独立したアプリではなく、業務アプリの中で動作する方が良い。DBの接続があるのであれば、SELECT一文だけなどの簡易なヘルスチェックも実施する。(これくらいなら今のサーバでは負荷にならない)
- 統計手法を活用する。
- 平均/周期性/パーセンタイル/標準偏差
- アラートへの対応手順は必ず残す。
- アラートの見直しは定期的に実施する。(本当にこれを監視しないといけないのか?ログから確認するだけはダメなのか?)
- 自動復旧が可能ならばその仕組みを検討する。
- ロードバランサー/キャッシュ/DB/キュー/WEBサーバは、サーバ監視の大きな対象となりうる。
- アンチパターン
- すべてのアラートを通知するのはやめよう。特にメールは無視されてしまう。
- CPU利用率80%やディスク使用率80% という点の監視に意味は持たない。
- 上昇の傾向(傾き)を気にしたほうがいい。