😸
登壇報告 SRE Kaigi 2025 アフターイベントに「Enhancing SRE Using AI」というタイトルで登壇しました
こんにちは。
ご機嫌いかがでしょうか。
"No human labor is no human error" が大好きな吉井 亮です。
2025年1月29日(水)19:00 に開催された SRE Kaigi 2025 アフターイベントに登壇しましたので資料を公開します。
所属会社が SRE Kaigi 2025 のスポンサーであることもあり、登壇の機会をいただきました。
また、同僚がイベント運営に関わっており、スポンサーも含めて素晴らしい活動だと感じています。
スライド
サマリー: Enhancing SRE Using AI (6ページ以降)
※ このサマリーは AI で生成された文章です。
テーマ選定の理由
- SRE活動では少人数で広範囲をカバーする必要があるため、トイル削減が重要。
- AI/LLM(大規模言語モデル)の導入でトイル削減を目指す。
- ビジネス面でAIを活用したサービスが増加している現状を踏まえ、SREもAIの知見を習得すべきと考えた。
SREタスク領域ごとのAI/LLM導入アイデアと実装案
1. モニタリング
アイデア:
- ダッシュボードの正常性チェックをAIに任せ、意見を出してもらう。
実装案:
- メトリクスをJSON形式でエクスポートし、AIに渡す。
- 過去2週間分のデータを基に、劣化や異常値検出を分析。
- スパイク時間帯などの情報を事前にAIへ提供。
2. コードレビュー
アイデア:
- Pull Request時にAIによるコードレビューを実施。
実装案:
- Pull RequestトリガーでGitHub Actionsを起動。
- File Diffに基づきAIがコメントを生成。
- コーディング規約やプロジェクト特有のルールを事前にAIへ学習させる。
3. インシデント対応
アイデア:
- インシデント検知後、Slack通知からChatBot経由で一次解析をAIに依頼。
実装案:
- クラウドファンクションでシグナル収集機能を構築。
- アラート発生時刻の5分前からデータ収集し、具体的なプロンプトでAIに解析依頼。
- 過去インシデント情報をナレッジベース化して精度向上。
4. Post Incident Review
アイデア:
- インシデント中の作業ログを要約し、時系列整理したドキュメントをAIに作成させる。
実装案:
- SlackやNotionなどの作業ログをAIに渡して整理。
- ドキュメント形式やメトリクス画像出力フォーマットを事前指定。
5. キャパシティプランニング
アイデア:
- トラフィックパターンとリソース使用率から将来的なキャパシティプランニングをAIに予測させる。
実装案:
- トラフィックパターンとリソース使用率データをJSON形式で定期的に出力。
- 関連性の高い複数リソースデータも含めた分析。
6. IaC(Infrastructure as Code)
アイデア:
- コード生成、レビュー、文法チェックなどをAIで支援。
実装案:
- IDEにAI拡張機能をインストール。
- Terraformファイル先頭行に要件記述で自動コード生成。
- 既存ファイル参照による補助機能も活用。
7. ナレッジストア
アイデア:
- プロダクト/プロジェクト特化型情報の蓄積とChatBotによるQ&A対応。
実装案:
- ChatBot → AI Agent → ナレッジベースという流れで運用。
- 元ドキュメント更新時にはナレッジベースへ自動反映する仕組み構築。
まとめ
- SRE領域でも積極的にAI活用を推進。
- 複雑な処理や雑多なタスクはAIに任せて効率化。
- 「AIでMore More SRE」を目指す。
所感
5分の LT だったのでサラッとした内容でしたが、SRE も AI が必要だということを伝えることができたと思います。
生成 AI 元年と言われる2023年と違い、今は様々なツールや先人の知恵が蓄積されているので、SRE 活動に AI を取り入れることは難しくないと感じました。
SRE Using AI を進めていきたい、そう決意を新たにした登壇でした。
Discussion