NTT DATA TECH
📚

第1回 Datadog Bits AI SRE - どこまで障害解析を高度化できるのか

に公開

はじめに

Observabilityの文脈でAI活用への期待が高まっています。ログ・メトリクス・トレースが揃っていても、障害発生時に「どこから見ればよいか」「どの仮説を先に当たるべきか」で時間を使ってしまうことは、現場では珍しくありません。

今回、AIを活用したObservability高度化をテーマに、DatadogのAI機能(Bits AI SRE)を用いた障害解析検証を実施しました。本記事では、その検証結果をもとに、AIが実際にどこまで役立つのか、そして何が限界なのかを紹介します。


Bits AI SREとは

Bits AI SRE は、本番環境の障害調査をエンドツーエンドで支援する自律型AIエージェントです。Datadog Monitorを起点に発生したアラートの調査を行います。

Bits AI SREについてやBits AI SREによる調査の詳細については、Datadog公式ドキュメントおよびDatadog Tech Blogの記事をご参照ください。


検証の目的

マイクロサービス環境では、単一のメトリクスやログだけでは全体像が掴みにくく、複数のテレメトリを横断しながら原因を絞り込む必要があります。この複雑さが、障害解析における「初動の迷い」を生みやすい構造的な背景です。

今回の検証の目的は以下の2点でした。

  • AIが根本原因特定までの時間短縮に寄与するのかを定量的に把握する
  • AIが支援できる領域と、人が担うべき判断領域を明らかにする

検証の概要

環境

  • Amazon ECS with AWS Fargate上に構築したマイクロサービス環境
  • Datadog Agentをサイドカー方式で導入

比較軸

条件
AI有無 Datadog AI機能あり/なし
経験差 経験者(6名)/若手(6名)

障害シナリオ

意図的に以下の擬似障害を発生させる。

  1. スロークエリ — PostgreSQLの対象カラムのインデックスを削除して発生
  2. コネクションプール枯渇 — 最大接続数を制限し、接続待ちが発生する状態を作成

結果① AIありとなしで、解析の動線はどう変わるか


AIなし/ありの場合の動線比較になります。
AIありの場合、アラート検知後の初動で Bits AI SRE が活用できます。Bits AIがDatadog内の情報を横断的に調査し、解析の示唆を提示することで、「どこを見に行くべきか」の初動が変わります

重要なのは、AIがすべてを解決するわけではないという点です。Bits AIの役割は、調査の起点と優先順位づけの支援です。


結果② 正答率は改善したのか

結論から言うと、正答率には明確な改善が見られました。

シナリオ AIなし AIあり 改善幅
① スロークエリ 4/6(67%) 6/6(100%) +33ポイント
② コネクションプール枯渇 4/6(67%) 5/6(83%) +16ポイント

Datadog内の複数の観測情報を横断して示唆を得られる点が、見落としを減らす方向に働いたと考えられます。


結果③ 解析時間は短縮したのか

ここが最も興味深い結果でした。経験者では短縮、若手ではむしろ増加傾向という、一様ではない結果になりました。

経験者については両シナリオともに時間が短縮し、最大で54%の改善が確認できました。

なぜ若手では時間が伸びたのか

若手で時間が増加した背景として、以下の要因が考えられます。

  • AIの示唆が正しいかを検証する手順が固まっていない
  • 示唆を受けても、確認する順番が定まらず行き来しやすい
  • 「どこで結論を出すか」という判断基準が曖昧

一方、経験者はAIの示唆を起点に仮説を立てながらも、「何を裏取りすれば十分か」「どこで結論を出すか」が明確です。そのため、寄り道せずに原因にたどり着くことができました。

この結果から、Bits AI SREの適切な位置づけは次のように言えます。

「誰でも簡単に根本原因へたどり着ける魔法の道具」ではなく、「経験者が最短経路で根本原因にたどり着くのを補佐する道具」


結果④ 費用対効果はどうだったか

簡易的に経験者の単価を10,000円/時として仮定すると、以下のとおりです。

シナリオ 時間短縮 コスト削減(概算)
① スロークエリ 16.2分 約2,700円
② コネクションプール枯渇 25.3分 約4,217円

一方、Bits AI SREの調査コストは1調査あたり31.25〜45.00ドルです。今回のような短時間で収束する障害では、解析時間の削減効果だけを見ると大きなコストメリットは出にくい結果でした。

このことから、常時利用よりも必要時に起動してチャットで深掘りする運用が現実的です。
例えば、あまり発生しないアラートやRunbookがまだないアラートなどで初動がわからない場合に、Bits AI SREを起動し初期対応や原因解析を行います。

ただし、今回の対象は最大2時間程度で解析が終わる想定の障害です。より複雑・長時間化する障害や、複数チームをまたぐ切り分けが必要なケースでは、削減効果が相対的に大きくなる可能性があります。


Bits AI SRE活用の現実的な使いどころ

今回の検証から見えた、Bits AI SREが効果を発揮しやすい場面は次のとおりです。

  • 監視データは揃っているが、初動でどこを見ればよいか迷いやすい
  • サービス間依存が多く、ログ・メトリクス・トレースを横断して確認したい
  • 熟練者の思考プロセスを補助し、収束までの時間を短縮したい

逆に、以下の前提がないと効果が出にくいことも分かりました。

  • 調査手順の基本が理解できていること
  • AIの示唆を検証・確認するための観点を持っていること
  • どの情報を見て、どこで判断するかの基礎スキルがあること

Bits AI SREは運用の代替ではなく、運用設計と解析プロセスが整っていてはじめて効くサポートツールと捉えるのが現実的です。


まとめ

今回の障害解析検証から得られた知見を整理します。

観点 結果・考察
正答率 AI活用により改善(最大+33%)
解析時間(経験者) 短縮(最大54%改善)
解析時間(若手) 増加傾向。解析プロセス設計が課題
費用対効果 短時間障害では限定的。複雑障害では向上の余地あり

現時点で、Bits AI SREは万能な自動障害解析ツールではありません。しかし、観測データが整備され、解析プロセスが設計され、人が適切に使いこなせる環境であれば、経験者の調査を確実に加速する補助ツールとして機能します。

Bits AI SREを活用することで、システムに精通した人材や日常的に障害解析を担う人材の負荷軽減が期待でき、限られた高度人材をより高付加価値な領域へ再配置できる、つまり、ビジネス価値向上への取り組みに人材を充てられる余力ができる可能性が得られました。

AIをObservabilityに組み込む価値は確かにあります。ただし、その価値は「AIが賢いから」だけでは生まれません。データ・プロセス・人、この3つが揃って初めて、AIはObservability高度化の武器になります。

今後は、より複雑な障害シナリオや実運用に近いケースでの検証を重ね、AIの最適な使いどころをさらに明確にしていく予定です。

次回は、Bits AI SREをより効果的に活用する方法の検証結果についてご紹介します!

NTT DATA TECH
NTT DATA TECH
設定によりコメント欄が無効化されています