Closed49

「入門 監視」を読んで雑にまとめる

りょたりょた

アンチパターン

多くの慣習がそうであるように、慣習は善意から始まるものです。よくない慣習は「いつもやっていることだから」で済まされるようになり、他の人にそのまま引き継がれる。このような慣習は表面上は問題には見えません。しかし、監視プラットフォームにとっては弊害になる。このような慣習をアンチパターンとする。

りょたりょた

アンチパターン1: ツール依存

ツールとは仕事のやり方、前提、文化的あるいは社会的な規範が具現化したもの。

りょたりょた

アンチパターン2: 役割としての監視

開発、保守、など役割別に監視をするのはアンチパターン。

りょたりょた

アンチパターン3: チェックボックス監視

「これを監視してます」という監視システム。
アラートがうるさすぎて、狼男現象になりそう。
チェックするだけが監視ではない。

りょたりょた

アンチパターン4: 監視を支えにする

壊れやすいというのを理由に監視を頼りにすること

りょたりょた

監視のデザインパターン

りょたりょた

デザインパターン1: 組み合わせ可能な監視

特化ツールを組み合わせてプラットフォームを作成する。
入れ替え可能なように疎結合にしておく。

りょたりょた

監視サービスの5要素

  • データ収集
  • データストレージ
  • 可視化
  • 分析とレポート
  • アラート
りょたりょた

お願いだから円グラフは使わないで

過程やトレンドの情報が含まれていない。変化しないデータの可視化に向いているグラフだから。

りょたりょた

デザインパターン2: ユーザー視点での監視

はじめに監視を追加すべき箇所はアプリとユーザーの接点。
具体的には、HTTPレスポンスコード、リクエスト時間など。

りょたりょた

デザインパターン3: 作るのではなく買う

初期の段階は監視SaaSを利用するなど、フェーズごとに考える。

りょたりょた

アラート

りょたりょた
  • アラートにメールを使うのはやめる
  • 手順書を書く
  • 固定の閾値を決めることだけが方法と思わない
  • アラートを削除し、チューニングする
  • メンテナンス期間
  • 自動復旧を試す
りょたりょた

アラートにメールを使うのはやめる

社内のチャットルームに送るのが良い。

りょたりょた

固定の閾値を決めることだけが方法と思わない

閾値外で大きくスパイクした場合は通知されない。閾値ではなく、変化量やグラフの傾きを利用する方が好ましいケースもある。

りょたりょた

アラートを削除し、チューニングする

アラート疲れを防ぐ。

りょたりょた

オンコールのローテーションに開発チームを組み込む。
より良いソフトウェアを作ろうというインセンティブが生まれる。

りょたりょた

インシデント管理

りょたりょた
  1. 監視が問題を認識
  2. 記録
  3. 診断、分類、解決、クローズ(対応)
  4. コミュニケーションをとる
  5. 改善策を考える
りょたりょた

フロントエンド監視

  • リアルユーザー監視
  • シンセティック監視
りょたりょた

domComplete - navigationStart ... ページの総ロード時間
domInteractive - navigationStart ... ページがロードされてユーザーが体感する時間

りょたりょた

アプリケーション監視

りょたりょた

ログを転送するレイテンシーを鑑みる必要がある。同期的に送信するようなものはかえって、アプリを遅くする。エージェントが非同期で送信するものが好ましい。

りょたりょた

マイクロサービスの場合の監視

リクエストidをもとに分散トレーシング

りょたりょた

/healthエンドポイントを用意し、指差し確認すると良い。

りょたりょた

サーバー監視

りょたりょた

ロードアベレージ

CPUに処理してもらうのを待っているプロセスがいくつかあるかを指す指標

りょたりょた

SNMP

SNMP(Simple Network Management Protocol)は、ネットワーク経由でデバイスを監視・制御するためのプロトコルです。ルータ、スイッチ、サーバなど、TCP/IPネットワークに接続された通信機器を監視・制御することができます。
161, 162 UDPベースプロトコル

りょたりょた

データベースサーバーの場合は秒間クエリ数を監視。queries per second

りょたりょた

ネットワーク監視

りょたりょた

インターフェースのメトリクス

  • 帯域幅
  • スループット
  • レイテンシ
  • エラー
  • ジッタ(jitter)
りょたりょた

スループット
ネットワークリンクの実際のパフォーマンス、秒間ビットで表される。

りょたりょた

レイテンシ
パケットがネットワークリンクを通じてやり取りされるのにかかる時間。

りょたりょた

ジッタ
あるメトリクスの通常の測定値からの狂いのこと。(乖離かな)
1ms, 150mx, 30msとばらつくならジッタが大きいと表現される。

このスクラップは3ヶ月前にクローズされました