🎤

[ Findy SRE LT大会 ] チーム一丸となって信頼性向上! 多種多様な監視でサイトを守る取り組みの紹介

2023/05/19に公開

こんにちは。Red Frasco でインフラエンジニアをやっている猪熊です。
Findy 主催の勉強会で登壇してきたので、その資料と振り返りを共有します。

イベント概要

SRE大集合!みんなで学ぶ、信頼性を高めるための取り組みLT大会

SREや信頼性がテーマだったので、弊社で実践している数ある監視・モニタリングの中から一部抜粋して紹介してきました。

発表資料

要約

一般的な監視・モニタリングではなく、独自性が高いと思われる(独断と偏見)監視を5つ紹介

  1. KPIのしきい値監視: 大型リリースを数多くこなす上での最終防衛ラインとして機能
  2. ステータスコードのAnomaly監視:Datadog の Anomaly Monitor が便利
  3. WAFによるアクセスブロック監視:Anomaly Monitor で怪しいアクセスを炙り出す
  4. 多段Synthetics Test:問題切り分けが楽になる
  5. マルチアカウントのコスト予実管理:Budget さえ設定すればコスト監視スタート。

発表をとおして伝えたかったこと

Datadog の Monitor が 120 を超えているので、本当にそのうちの一部のみ紹介しました。Q&A でも話題にあがりましたが、これだけの Monitor 数を運用で回せているのはそれこそチームで運用できているからだと考えています。
例えば、 KPI 監視は、僕だけの一存で導入できるものではありません。KPI がどれくらいのベースラインで推移していて、それがどの程度だったら適切なのか、どの程度だったら異常なのか、チーム全員で話しあって設定をしています。

また、監視は設定を入れて終わりではありません。その設定が想定通り機能していることが大切です。1人で監視を設定していると、どうしても設定ミスをしてしまったり、100% 意図通りではない設定になっていたりすることがあります。
設定を追加した後に他の人にも内容を見てもらうことで監視内容の品質担保を行なっています。監視はインフラだからインフラエンジニアが実施するといった線引きがなく、みんなで監視・モニタリングするスタンスで運用しています。
1人インフラの身としては、とても助かっています!(もちろん監視に対する主な責務は担いますが)

発表後Q&A

Question

Datadog Monitor数がおよそ120個あるという話に対して、「Monitorの数が多くなりすぎて、埋もれてしまうことはないのか?そうならないように何か工夫をしているか?」といった趣旨の質問がありました。

Answer

私からの回答
無闇やたらにMonitorを追加するのではなく、導入すべきMonitorを事前にチーム内で議論してから追加するようにしています。現時点では特に大きな問題にはなっていないですが、さらに数が増えてきたら、埋もれない仕組みのようなものも検討しなければならないと思っています。

補足説明
Monitor が常にOKになるように対処を素早く行っているので、大きな問題になっていないというのもポイントだと思います。
Warn や Alert になったものを放っておかずに、アラートが飛んだら速やかに対応するということを組織的に行うのも大切かも知れません。

まとめ

他のLTも素晴らしい内容ばかりで僕自身も勉強になりました。
運営の皆様や聞いてくれた皆様、本当にありがとうございました。
LT会の資料はこちらにまとまっているので、ぜひご覧ください。

Red Frasco

Discussion