SRE NEXT 2025 登壇資料 - SRE with AI:実践から学ぶ、運用課題解決と未来への展望
こんにちは。
ご機嫌いかがでしょうか。
"No human labor is no human error" が大好きな吉井 亮です。
2025年7月11〜12日に開催された SRE NEXT 2025 にて、登壇・発表した資料を公開します。
SRE with AI:実践から学ぶ、運用課題解決と未来への展望
運用課題の解決
弊社で実践した SRE with AI の取り組みのうち、公開できるものを紹介してます。
Amazon Bedrockを活用したPCI DSS要件の省力化
PCI DSS 4.0.1 の要件の1つである「10.4 監査ログをレビューし、異常あるいは疑わしいアクティビティを識別する。」の対応で、Amazon Bedrockを使ってログレビューを自動的に行うシステムを設置しました。
ログのレビュー自体や、証跡の記録は人力に依存しており、工数的に大きな負担となっていました。
運用の属人化と工数負担という2つの課題を改善した事例です。
ダッシュボードアナライザー
毎朝のタスクとして、ダッシュボードチェックを行っています。
ただ、1人 SRE の朝一ダッシュボードチェックを以下の心配があります。
- 何の問題もなければ地味で単調なタスクなので、気を抜くと兆候を見逃してしまう可能性は排除できない
 - 1人だと考察に多様性が無い
 - なにより1人だと飽きてしまう
 
というころで、朝一ダッシュボードチェックも AI/LLM に手伝ってもらうことにしました。
Java バージョンアップ
Java 8 から 21 へのバージョンアップに Amazon Q Developer を使用しました。
- 変更ファイル数: 954ファイル
 - VerUp 前後合計差分: 9,917行
 - Q Developer は1時間32分で完了
 
関連ライブラリの微修正と QA を含めて2ヶ月弱(実質1ヶ月)で完了しました。
AI エージェント開発 研修
社内向けに AI エージェント開発の研修を行いました。
簡単なチャットを作ってもらうハンズオン、プロダクトへの AI 利活用を考えるワークショップを実施しました。
「なぜ SRE が?」と思われる方がいるかもしれません。この研修を通じて AI エージェントのコミュニティが形成されたり、共通技術を使ってもらいたいという思いがあります。
展望
SRE with AI の3つのステージを考えてみます。
現状は作業効率化のステージにいます。ここは、人間の作業効率化・省力化・利便性向上を with AI で実現するステージです。
弊社のみならず世界中の SRE がすでに取り組み、運用している状態だと想像しています。
今後1年のうちに次のステージ 自律的自動化 に進むと考えています。
自律的自動化は、AI が人間の介在なしに自律的に運用を行うステージです。
SRE タスクを SRE AI Agent が自律的・自動的に実行し、運用を行う状態です。
例えば、対象プロダクトのレスポンスタイムが著しく低下した際、劣化している API やエンドポイントを特定し、GitHub リポジトリから該当するコードを特定し、
そこに劣化の原因があれば修正して Pull Request を作成するところまで AI Agent が自律的に行います。
他にも、AutoScaling の設定をミスっていた場合には、しきい値の調整やスケールアウト数の変更を行います。
本番環境の設定変更を人間の介在なしで実施されることに抵抗や不安を感じる人がいるかもしれません。
しかし、LLM モデルの進化や MCP Server の多様化によって、そういういった概念が変わると私は信じています。
SRE のみなさまがトイルを極限まで削減している、または、削減の途中であると思います。しかし、AI Agent を活用すればさらに50%のトイルが削減できるはずです。
現在でも Amazon EKS MCP Server を使えば OOMKilled といった簡単な問題なら自律的に解決することができます。
以上です。
最後に
イベント当日に弊社ブース当番をした7名がSRE NEXT 2025で得た学びと気づきをまとめた記事を公開しました。
ぜひご覧ください。
Discussion