Open1

オライリー 入門 監視

あずーれあずーれ
  • アラートはユーザ目線での監視項目を考えるべき(レイテンシーなど)
  • ネットワーク監視にSNMPは向いていない。エージェントインストールや、集約サーバが必要になってしまう。
  • アプリケーションの監視には、/healthエンドポイントを利用する。独立したアプリではなく、業務アプリの中で動作する方が良い。DBの接続があるのであれば、SELECT一文だけなどの簡易なヘルスチェックも実施する。(これくらいなら今のサーバでは負荷にならない)
  • 統計手法を活用する。
    • 平均/周期性/パーセンタイル/標準偏差
  • アラートへの対応手順は必ず残す。
  • アラートの見直しは定期的に実施する。(本当にこれを監視しないといけないのか?ログから確認するだけはダメなのか?)
  • 自動復旧が可能ならばその仕組みを検討する。
  • ロードバランサー/キャッシュ/DB/キュー/WEBサーバは、サーバ監視の大きな対象となりうる。
  • アンチパターン
    • すべてのアラートを通知するのはやめよう。特にメールは無視されてしまう。
    • CPU利用率80%やディスク使用率80% という点の監視に意味は持たない。
    • 上昇の傾向(傾き)を気にしたほうがいい。