Open1

CloudWatchでエラーを素早く探すコツ

ふじしろふじしろ

探し方のコツが分からず確認が遅れがちなので相談。
自分のやってたこと

  1. だいたいの時間帯で設定
  2. ヒットしそうな文言で検索
  3. ヒットした場合
    3. 検索ワードの幅が広すぎて関係ないものも引っかかる
    4. 絞り込むための検索ワードを探す
  4. ヒットしなかった場合
    6. これでエラーはこちら起因じゃなかったと判断していいのか?と不安になる
    7. 関係しそうな他の文言でもいくつか絞り込む(ExceptionとかErrorとか)
    8. 複数やってヒットしなくてようやく多分大丈夫と判断する

主観的には
エラーがあった場合は、どれが該当しているエラーなのか絞り混むのにじかんがかかる
エラーが無かった場合は、本当に問題無いのか(7, 8)判定するのに時間がかかってる

先輩のやり方を聞いてみた(APIで発生したエラーを探す場合)

  1. まず発生時間帯で絞る
  2. ざっと見る
  3. 見つからなかったら
    4. APIの開始の文字列で検索(ex: REQUEST START
    5. エラーを指す文字列で検索(ex: Exception
    6. 検索する文字は包括的なワードでやってる模様。

※ X-Rayとか使えるようになるともっと早く探せるようになるかもとのこと