👏

Datadog Summit Tokyo 2025 参加レポ

monokaai

2025/10/24に公開

 はじめにこんにちは！今月からデータ配信チームでデータエンジニアとして勤務している鈴木です。

入社早々、2025/10/16のDatadog Summit Tokyo 2025 に参加させてもらうことができました。

社内でもDatadogの活用を推進しているため、得られた知見・感想をまとめたいと思います。

 基調講演直近でリリースされたサービスの紹介も交えながら、プロダクト展開に関するビジョンが熱く語られていました。

印象的だったのは、AI駆動による運用自動化への強いコミットメントです。

いくつかの気になった機能を順番に紹介します。

 気になった機能
 Bits AIログ監視・開発・セキュリティチェックなどを横断的に行えるAIエージェント機能です。

この機能には次の特徴があり、運用ではアラート初期対応・バグ調査の自動化まで任せられるそうです。
インシデント検知・仮説のリストアップ
仮説検証の並列実行・調査結果のサマリー作成
原因特定・修正対応
24時間対応


インシデント→仮説検証の並列実行→原因特定までがフローチャートで可視化される様子
またDatadogには「デプロイ後のエラー発生状況を監視して自動でRevertする」「カナリアリリースとともにエラー率を計測する」といった機能もあり、BitsAIと組み合わせることで、より安全なリリースをサポートしてくれると感じました。
そしてAIでの原因特定に至らない場合でも後述のオンコール機能と連携することで、人が速やかに対応を引き継げます。

 オンコールオンコールはDatadog Incident Responseの一部として提供される、インシデント対応を統合したプラットフォームです。

Bits AIとの連携に限らず、以下の機能により運用負荷軽減とインシデント解決速度の向上が期待できそうです。
監視、ページング、インシデント管理の一元化
オンコール対応のスケジューリング機能（自動ローテーション）とエスカレーションルールによる24時間体制の監視

モバイルアプリを活用して、どこからでもインシデント状況の把握が可能

 LLM Observability開発における生成AIの活用に留まらず、サービスにエージェントを組み込むプロダクトも

どんどん増えている一方で、ハルシネーションを含む入出力の不安定さや、モデル評価の困難さなどの課題に直面することもあると思います。
特に複数のLLMモデルから構成されるサービスではシステム全体の複雑度が増すため、バグ発生時の原因特定が困難になります。

このような問題による開発速度の大幅な低下に対して、LLM Observabilityを利用することで

アプローチできるとベンダー講演で語られていました。



LLMの入出力がUI上で一元管理できる
参加したワークショップでは
入力、出力、レイテンシ、トークン使用量や各ステップでのエラーの追跡
アプリケーション全体のパフォーマンス監視に与えた影響とLLMの稼働状況の監視
本番環境の実データをマスキングして開発環境に適用できるため、スムーズにPDCAを回せる
LLMの生成結果の検証自体にもLLMを導入し、開発者の負担を軽減できる
などの効果があるとされていました。

 おわりに単なるログデータ収集プラットフォームに留まらず、AI駆動を推進するDatadogの方向性が明確に感じられました。

公式のラーニング情報もあるので、活用して今後もキャッチアップしていきたいです。

GitHubで編集を提案

Spectee Developers Blog

"危機"を可視化するをミッションとし、危機管理サービスを提供しているSpecteeの技術ブログです。

はじめに

基調講演

気になった機能

Bits AI

オンコール

LLM Observability

おわりに

Discussion