🐶

あなたの SRE チームを促進させる、Bits AI SRE 偉いところ

に公開

この記事は Datadog Advent Calendar 2025 シリーズ2 の2日目の記事です。

TL;DR

この記事は 全ての Datadog ユーザーシステムのオブザーバビリティを高めようとしている方 を対象としています🐶

AWS re:Invent 2025 の初日である2025年12月2日に、Datadog は兼ねてから Preview 機能だった Bits AI SREGA(一般公開) しました。これに合わせて、Bits AI SRE を Preview 期間中に利用いただいたフィードバックや実際の使い心地を要点を絞ってご紹介します。

https://www.datadoghq.com/product/ai/bits-ai-sre/

さらに、日本でいち早く事例をお話しいただいた株式会社ヌーラボ二橋さんの発表から、実際に利用した上での「偉い」ポイントをまとめました!

Bits AI SRE は Preview の発表後からも複数回 Datadog の公式ブログである『The Monitor』で紹介されています。基本的なコンセプトや機能は是非あらかじめこちらをご覧ください🐶

https://www.datadoghq.com/blog/datadog-bits-generative-ai/

https://www.datadoghq.com/blog/bits-ai-sre/

ここが偉いね Bits

Bits AI SRE は自律的な AI SRE エージェントです。役割としては、Datadog Monitor によって発生したアラートの一次調査を担います。調査結果として有用なデータをユーザーに返すために、Bits AI SRE は以下のような様々な観点で偉い取り組みを行います。

  1. 自動的に関連するコンテキスト[1]を調査対象に入れる
  2. 段階的な調査:データやランブックの確認から行い、次に仮説の作成と検証を行う
  3. 調査後の内容をもとに質問やまとめを行える
  4. 調査結果にフィードバックを行い、次回の調査を改善できる

Bits AI SRE はこのように、複数のステップで調査を行います。実際の画面と同様に調査内容を図にすると以下のようになります。

1. 自動的に関連するコンテキストを調査対象に入れる

初期調査(Initial Investigation) として、Bits AI SRE はアラートがトリガーされたデータに関連する様々な情報をもとに調査を開始します。これによって未知の原因によって発生したアラートであっても、同時間帯に関連する監視情報が怪しい挙動をしている場合にその原因となる自動的に仮説として適用され検証が行われます。

調査対象に自動的にコンテキストを追加してくれるこの機能は、オブザーバビリティの力を発揮できる最適な機能です。オブザーバビリティの主要なテレメトリであるメトリクス・トレース・ログなどのデータを効果的に利用するには、それらが関連するホスト・コンテナ・トレース ID のようなコンテキストを考慮した調査が重要になります。

例えば、CPU の使用率が上昇した際にその原因を探るとしたらログやトレースを確認して、その基盤上で動作しているプロセスやアプリケーションの挙動を調査する必要があります。Datadog AgentAPM SDK(Tracer) が自動的にこれらの情報を紐付けても、調査の段階でこれらを有効活用できなければ意味がありません。

[2]

入門 OpenTelemetry』でも述べられているように、オブザーバビリティのテレメトリを相関(紐付け)させることで、統一された分析ができるようになります。

こうして個々の分析で得られる結果よりも、よりシステムの実態に即した調査結果を得られる可能性が高まります。こうした調査方法は、様々なテレメトリデータを自動的に相関してくれる Datadog の強みを最大限に活かしてくれます。

2. 段階的な調査:データやランブックの確認から行い、次に仮説の作成と検証を行う

Bits AI SRE は、アラート発生後にいきなり結論を出そうとはしません。AI エージェントの強みである、事前に調整された段階的なプロセスに基づいて自律的に調査を進めてくれます。

まずは、前述の関連するコンテキストの確認に加えSRE チームで整備されたランブック(Runbook)や過去の事後検証資料(Postmortem)を通して障害の背景を把握します。続いて、仮説生成(Hypothesis Generation) を行い、「この要素が問題を引き起こしたのではないか?」「特定の変更が影響しているのではないか?」といったで上記のデータを分類します。その後、それらの仮説をデータをもとにした調査で検証(Validation)していきます。

この一連の「調査 → 仮説 → 検証」のプロセスが自動化されていることで、手動調査に比べて大幅な時間短縮が可能になります。また、この段階的な構造により検証を誤った方向に調査が進みにくくなります。複数の仮説に対してそれぞれ複数のデータを持って検証することで、それぞれの仮説を採択・棄却する根拠を十分に確認することとなります。

段階的な調査は高い信頼性の他にも、全てのプロセスを後から確認できるといったメリットがあります。こうした説明可能性の高い AI エージェントであることで、調査結果の信頼性は高くなります。

3. 調査後の内容をもとに質問やまとめを行える

Bits AI SRE は、調査の結果として得られた内容やデータをもとに、その内容について自然言語で質問できるチャットインターフェースを備えています。「アラートの原因は何だったの?」「調査の内容と結論を要約して」など、質問ベースで深掘りできるため、調査内容を直接確認せずとも必要な情報を簡単に確認できます。

さらにこうした自然言語の対話では、日本語のようなローカル言語になどの任意の言語で調査結果を確認することができるのも嬉しいポイントです。

また、そのままチャットの中で Datadog Notebook に事後検証資料(Postmortem)を生成できます。これには原因の推測・影響範囲・関連データ・確認済みの仮説・推奨される次のアクションなどが自動的に含まれることもポイントです。

これにより、SRE が行う「調査内容の振り返り」や「事後検証資料(Postmortem)の作成」が圧倒的に効率化され、情報も網羅的に取り込めます。こうしてまとめた事後検証資料(Postmortem)は、今後の Bits AI SRE の参照資料としても有用です。

4. 調査結果にフィードバックを行い、次回の調査を改善できる

Bits AI SRE は単なる調査の自動化を行う AI エージェントではなく、継続的に学習・改善する仕組みを持っています。

[Help Bits Learn]のインターフェースを通して、SRE が調査結果に対してフィードバックを与えることで、次回以降の調査精度が向上します。
SRE が自然言語で実際の根本原因を記載することで、Bits AI SRE 以下のような内容を自動的に反映します。

  • 関連するデータのパターン
  • 参照すべきデータの種類
  • データに行うべきクエリ

結果として利用していくほど組織の運用に最適化された調査が可能になり、誤検知や的外れな分析を削減できます。これによりアラート対応の効率や再現性を高め、SRE チーム全体のパフォーマンス向上に貢献してくれます。

実例の紹介

さて、こうした「偉さ」が存分に詰まった Bits AI SRE ですが、Preview 期間のうちから既に日本の Datadog ユーザーグループである JDDUG で実例が紹介されています。

https://datadog-jp.connpass.com/event/367374/

JDDUG Meetup #14 @福岡で株式会社ヌーラボの二橋さんから『私の相棒Bits AI SRE Agentの紹介と彼との思ひ出』というタイトルで、実際に導入を検討した背景から調査を行なった画面そして感動したポイントまでを余すことなくまとめていただいています🐶

https://gamma.app/docs/-ztmbgr763gbjh21

実際に Bits AI SRE が行った調査としても、多岐にわたっており以下のようなトリガーと調査結果を紹介していただきました。

  • ALB の 5XX 系エラーの上昇から、DDoS の検知と攻撃元の傾向分析
  • K8s pod の CPU 使用率の増加から、付加の原因となっている POST リクエストの特定
  • DB レイテンシーの増加から、問題を起こすクエリの特定と改善案
  • K8s pod のリスタートの発生から、新規デプロイ起因のバグを特定

いただいた所感の中で、SRE にとって特に「偉い」ポイントが調査の早さです。株式会社ヌーラボの環境でも約4~10分(平均5分)で調査を完了し、迅速な調査結果が必要な際も AI エージェントのメリットを活かした調査が可能なことを示していただきました。
さらに、初期調査で根本原因の特定に至らなくとも、チャットインターフェースを通じた対話で解決策を導き出せたというのも「偉い」ポイントです🐶

このように、Preview 期間からも多くのお客様にお試しいただき、様々なフィードバックを経て Bits AI SRE は賢くなっているのです!

おわりに

Bits AI SRE が GA された記念に、Preview 期間で得られた様々な「偉い」ポイントをご紹介しました!Bits AI SRE は独立した製品のため、導入を検討される際は製品トライアルが可能です。

既に Datadog をご利用中の方々は、ご興味があれば Datadog の担当者にお問い合わせください🐶 また、まだ Datadog を利用したことない方々は、是非 Datadog のトライアルをお試しください🐕

脚注
  1. 初期調査(Initial Investigation)として、メトリクス・ログ・トレース・変更・ダッシュボード・Watchdog™︎ の関連する情報を調査します ↩︎

  2. 入門 OpenTelemetry』より引用 ↩︎

GitHubで編集を提案
Datadog Tech Blog

Discussion