🔧

SRE Next 2025の片隅でNOCの監視を勝手に魔改造した話〜SplunkとThousandEyesで始めるネットワークモニタリング〜

に公開

はじめに

この記事はSRE Nextのネットワークを守るNOCチームの監視環境を勝手にお手伝いしSplunkとCisco ThousandEyesによるユーザー目線のモニタリングを短時間で追加してAIにも喋らせるようにしていった記録です。
こちらのポストの裏側の話です。

https://x.com/honyanyas/status/1943950336961429679

すべては立ち話から始まった

先日開催されたSRE Next 2025のモニタリングツール体験パークにSplunkでブース出展していました。
私たちのブースのすぐ近くに、イベントのネットワークを一手に引き受けるNOCチームのブースがありました。モニターに映し出されていたのはおなじみのPing監視の画面。
(Pingだけだと、何かあった時大変そうだな…。機器のリソース状況とかユーザーエクスペリエンスとか見れたらもっと面白いのになぁ)
そんなことを考えていたSRE Next初日の夕方ごろ、ネットワークはCiscoが協賛しており、NOCチームにもCiscoメンバーがおり、SplunkもCiscoに買収された身なのでNOCチームの方(@takamasa272さん)と軽く立ち話してました。

NOCの方: 「Splunk触ってみたいんですよねー」
私: 「いいですね!せっかくだからCiscoのThousandEyesとSplunkやりましょう!」
NOCの方: 「やりましょう!」

ということでSRE Nextの片隅でもう一つのプロジェクトが勝手に爆誕しました。

Step 1: "外からの視点"を手に入れる - ThousandEyes爆速導入

善は急げということで、まずはその場でThousandEyesのトライアルアカウントを発行。
NOCの方と一緒に、さっそく設定を開始しました。
ThousandEyes: 能動的ネットワーク監視ツール。エージェントからテスト実行し途中経路のネットワークパスを自動的に解析・可視化してくれる素敵ツール。

「エージェントはその辺りのDockerに立てて...」「ターゲットはSRE Nextの公式サイトにしましょう」「テスト間隔はこれくらいで...」

そして30分も経たないうちに、ユーザーエリアからSRE NextのWebサイトまでの通信経路、各ネットワークホップの状態、LatencyやJitterが、手に取るようにわかるようになりました。

上がThousandEyes、下はUptime Kumaというおしゃれな死活監視ツールです。

モニターにPath Visualizationが映し出され、ユーザー目線での「なんか遅いかも?」が、どこの区間の問題なのか一目でわかるようになったのは、大きな進歩でした。
初日はここまででおしまい。

Step 2: データに"意味"を与える - Splunkと生成AI

ThousandEyesでユーザー観点での監視という強力な武器が手に入りました。
でも、せっかくなのでSplunkも活用したい。
色々ブースの準備や対応もしつつ、次の日のお昼にはSplunk Cloudのトライアルもサクッと申請して、ThousandEyes Appを使い、データをSplunkに取り込みダッシュボード化しました。これにより、過去の推移であったり、その他見たい情報を好きなカットで分かりやすく表示できるようになりました。

そして最後の仕上げに生成AIと連携させ、「データの意味」を喋らせてみることにしました。
(Splunk MLTK v5.6から| aiコマンドが追加され、簡単に生成AIにプロンプトを投げることができるようになっています)


画質悪くてすみません。
Geminiと連携させてダッシュボードに表示された数値を元にこのような質問をしています。

プロンプト例:
「ThousandEyesで得られたデータはこうなってます。この状態はネットワーク的にどう評価できますか?」

AIの回答例:
「Latencyは50msで良好な範囲ですが、Jitterが時折スパイクしています。問題のない範囲ですが、注意が必要です。」

これにより、ネットワークの専門家でなくても「今、何が起きているのか」を直感的に理解できるようになりました。SNMPやSyslogなどのデータも得られればより幅広いインサイトが得られるようになると思いますが、今回は時間の関係上ここまで。

まとめ:現場の「想い」が監視を進化させる

Ping監視から始まったNOCが24時間も経たないうちに「ユーザー体験の可視化」と「AIによる状況分析」まで辿り着いていました。気づけばCisco/Splunkだけではなく、モニタリングツール体験パークに出展していた他のツールもどんどんと取り込まれていかれ、SNMPでの接続数や機器リソースの状況、sFlowでの通信統計も可視化されていました。

そこに事前の計画や稟議書は一切ありません。あったのは、

  • 「もっと良くしたい」というNOCチームの想い
  • 「面白そう!」という好奇心
  • そして、「じゃあ、やろうよ!」の一言

ブースが近くにあったという偶然から、異なる専門性を持つエンジニアが協力し、ボトムアップでシステムの信頼性を向上させていく。現場のエンジニアの気持ちが繋がった時、監視はとんでもないスピードで進化する。その事実を、SRE Nextの現場で目の当たりにすることができました。

監視はツールを導入して終わりではありません。現場の想いを汲み取り、対話し、一緒に育てていくものなのだと、改めて実感した二日間でした。

素晴らしいフットワークの軽さと前向きなNOCチームの皆さまと、このような出会いの場をくれたSRE Nextに心から感謝します!

Discussion