SRE NEXT 2025 CFP提出のための分析レポート
はじめに
本レポートは、SRE NEXT 2025のCFP(Call for Papers)提出を支援するために、過去のSRE NEXT(2020年、2022年、2023年、2024年)の登壇内容を分析したものです。各年の発表内容をテーマ別に分類し、トレンドの変遷を追跡することで、今後注目されるであろうトピックや、まだ十分に探求されていない領域を特定しています。
1. テーマ別分類
以下にまとめます。
テーマ別分類
1. SRE組織と文化
SRE組織の構築と発展
- 2024: Central SREとEmbedded SREのハイブリッド体制で目指す最高のSRE組織 (@AkiraGoto)
- 2024: 内製化を見据えた効果的なSRE支援のアプローチ (@kojake_300)
- 2024: SRE文化の導入とプラットフォームの信頼性向上の取り組み (@mugiokax)
- 2024: 事業フェーズの変化を乗り越えるEnabling/Platform SREへの転換 (@0x11FE)
- 2024: 複業SRE、どこまでいける? (@sogaoh)
- 2023: SRE を実践するためのプラットフォームの作り方と技術マネジメント (白鳥 昇治)
- 2022: SREの歩き方・進め方
- 2022: 1,000万人以上が利用する「家族アルバム みてね」のSRE組織は4年間でどのように作られてきたのか
- 2022: SRE チーム立ち上げから1年。気づいたら SRE っぽくない仕事まで貢献しちゃってる説
- 2022: 6年で売上40億に成長したサービスのSREチーム結成〜運営
- 2022: ニフティでSRE推進活動を始めて取り組んできたこと
- 2022: 一人から始めるプロダクトSRE
- 2022: 非ITの事業会社にSREと言わずにSREを持ち込む
- 2022: 組織にSREを実装していくまでの道のり(エウレカにおけるSREの取り組みの歴史)
- 2022: 組織に対してSREを適用するとはどういうこと
- 2020: 40000 コンテナを動かす SRE チームに至るまでの道
- 2020: 絶え間なく変化するメルカリ・メルペイにおけるSREの組織と成長
- 2020: パフォーマンスを最大化するための SRE のオンボーディング事例
- 2020: 日経電子版SREチーム立ち上げ中
- 2020: 急成長するPairsと共に変化・成長し続けてきたエウレカのSRE戦略
- 2020: スクラムを1年回してSREと開発組織がどう変わったのか
- 2020: ZOZO MLOps のチームリーディングとSRE(Engineering)
- 2020: サイト信頼性エンジニアリングの原則 (記事)
SREとマネジメント
- 2024: SRE の考えをマネジメントに活かす (@chaspy_)
- 2024: 社内留学を通じて加速するプロダクトチームとのコラボレーション (@beaverjr_50)
- 2024: 開発チームへのディープダイブで見えてきた 顧客 = 開発者 の本当の課題 (@haruka_odenkun)
- 2022: 機能開発チームとコアAPIチームの架け橋としてのSRE
- 2022: How We Foster "Reliability" in Diversity
2. インシデント管理と障害対応
インシデント対応と分析
- 2024: 組織的なインシデント対応を目指して〜成熟度評価と改善のステップ〜 (@nari_ex)
- 2024: An Efficient Incident Response Training with AI (@rrreeeyyy)
- 2023: 備えあれば患いなし:効率的なインシデント対応を目指すSREの取り組み (小原 一真)
- 2022: 1年間のポストモーテム運用と、そこから生まれたツールsre-advisor
- 2022: Sensible Incident Management for Software Startups
- 2020: freee のエンジニアは障害から何を学び、どう改善しているのか?
障害検知と自動診断
- 2022: LINEスタンプの実例紹介:小さく始める障害検知・対応・振り返りの改善プラクティス
- 2022: AIOps研究録―SREのためのシステム障害の自動原因診断
- 2020: Practices for Making Alerts Actionable
3. 可観測性とモニタリング
オブザーバビリティ
- 2024: オブザーバビリティのマクロからミクロまで〜あるいはなぜ技術書を翻訳するのか (@ymotongpoo)
- 2024: SkyWayが遭遇したWebRTC の可観測性に関する問題と開発者向け可視化サービス提供までの道のり (@yuki_wtz)
- 2023: すべてのエンジニアに可観測性を開放する 生成AIアシスタント New Relic Grok (大平 議)
- 2022: より意味のある監視を目指して、外形監視の有効活用
- 2022: プロダクション環境の信頼性を損ねず観測する技
- 2020: 分散アプリケーションの信頼性観測技術に関する研究
- 2020: 成長を続ける広告配信プラットフォームのモニタリングを改善してきた話
- 2020: New RelicのSREに学ぶSREのためのNew Relic活用法
- 2020: 実践Observability
SLI/SLOの実装と運用
- 2024: 大きな組織にSLOを導入し運用するということ、その難しさ (@j_nk71)
- 2022: KaaS桶狭間の戦い 〜Yahoo! JAPANのSLI/SLOを用いた統合監視〜
- 2022: Who owns the Service Level?
- 2022: SLO決定のためのArt of SLO
- 2022: よりUXに近いSLI・SLOの運用による可用性の再設計
- 2020: SLO Review
4. インフラストラクチャと技術基盤
クラウドとインフラ管理
- 2024: 巨大インフラ産業で戦うSRE (@m_norii)
- 2022: Kubernetesの上に作る、統一されたマイクロサービス運用体験
- 2022: 増大を続けるYahoo! JAPAN Kubernetesクラスタ群キャパシティ管理のモダン化
- 2022: 長年運用されてきたモノリシックアプリケーションをコンテナ化しようとするとどんな問題に遭遇するか?
- 2022: Poolにおける開発の足を止めないシステム基盤構築
- 2020: タクシーxAIを支えるKubernetesとAIデータパイプラインの信頼性の取り組みについて
- 2020: 計画的に負荷リスクを排除するためのキャパシティプランニング
- 2020: 冗長性と生産性を高めるハイブリッドクラウド環境の実現
- 2020: 100万回線のIoT通信を支えるソラコムにおけるOpsDevの実践
データベースと大規模システム
- 2024: 500万人が利用する「友達と遊べるたまり場アプリ パラレル」におけるデータベース基盤の継続的改善 (@yoheimuta)
- 2023: LINEスタンプのSREing事例集:大量のスパイクアクセスを捌くためのSREing (maru)
- 2022: LINEのData Platform室が実践する大規模分散環境とキャパシティプランニング
- 2022: Adopting Kafka for the #1 job site in the world
5. 自動化とデプロイメント
自動化とCI/CD
- 2024: 徹底的な自動化とトイルの撲滅で実現する効率的なSREの実践例 (@bbq_all_stars)
- 2024: FourKeysを導入したが生産性向上には至らなかった理由 (@glass_sms)
- 2022: プルリク作ったらデプロイされる仕組み on ECS
- 2020: Blue-Green デプロイメントを採用したデプロイの仕組みを実装して共通基盤として導入した話
- 2020: Webサービスを1日10回デプロイするための取り組み
信頼性向上の実践
- 2024: プロダクト全体で取り組むSREing:イシューから始める信頼性/生産性向上の実践 (@be11)
- 2024: Enabling SRE by Guide Maps (日本経済新聞社のSREチーム清水赳さん)
- 2024: SREが考えるハイブリッド開催の技術イベントのライブ配信における信頼性 (@F_YUUCHI)
- 2022: TVerのサービスリニューアルにおける信頼性向上への取り組み
- 2022: LegalForceの契約データを脅かすリスクの排除と開発速度の向上をどうやって両立したか
- 2022: 成長を続ける組織でのSRE戦略:プレモーテムによる信頼性の認識共有
- 2022: ZOZOTOWNのProduction Readiness Checklistと信頼性向上の取り組み
- 2022: モダンとレガシーが混在するDMMブックスで培ったSRE Practice
- 2020: delyにおける安定性とアジリティ両立に向けたアプローチ
- 2020: Designing fault-tolerant microservices with SRE and circuit breaker centric architecture
- 2020: SRE Practices in Mercari Microservices
6. セキュリティとAI
セキュリティ
- 2024: DevSecOpsの内回りと外回りで考える持続可能なセキュリティ対策 (@yamaguchi_tk)
- 2022: AWS/GCPにおけるセキュリティ監視の取り組み
- 2022: ヤプリのSREにおけるセキュリティ強化の取り組みを公開する 〜上場前後の変化〜
- 2020: SREがセキュアなWebシステムを構築、維持するためにやれることはなにか
AIとSRE
- 2024: 工学としてのSRE再訪 (@yuuk1t)
- 2024: 敵対的SRE: 300個のジョブをAIチーム全員で支える技術 (@kitagry)
- 2023: SREとして向き合うGenerative AI (橋本 玄基)
7. 特定業界・サービスのSRE事例
業界特化SRE事例
- 2024: アンドパッドのマルチプロダクト戦略を支えるSRE (@cass7ius)
- 2024: スタートアップの急成長に寄り添うOn-Call体制構築とその変遷 (@horimislime)
- 2023: マルチプロダクト運用におけるSREのあり方
- 2023: ギークがイオンに飛び込んだ結果がやばい〜Reliabilityと経営〜 (樽石 将人)
- 2022: 事業の成長と共に歩む、ABEMA SRE探求の歴史
- 2022: heyにおけるSREの大切さ。マルチプロダクト運用の「楽しさ」と「難しさ」および今後の展望
- 2022: 街じゅうを"駅前化"する電動マイクロモビリティのシェアサービス「LUUP」のSRE
- 2022: 新規ゲームのリリース(開発)前からのSRE
- 2022: メルカリグループにおけるSRE
- 2020: グループウォレットアプリ、6gramの運用をはじめてみた
8. 年別トレンド分析
2020年のトレンド
- 組織構築とSREチームの立ち上げに関する発表が多い
- 基本的なモニタリングとオブザーバビリティの実践
- インフラ管理とキャパシティプランニングが重視されている
2022年のトレンド
- SLO/SLIの実装と運用に関する発表が増加
- 多様な業界でのSRE適用事例が豊富
- インシデント管理と障害対応の体系化
2023年のトレンド
- AIとSREの統合が始まる
- 特定の課題に対する深掘りした解決策の提案
- マルチプロダクト環境でのSRE実践
2024年のトレンド
- AIとSREの統合が本格化
- 組織間コラボレーションの重要性
- より成熟したSRE文化の構築と発展
- オブザーバビリティの高度化
2. SRE NEXTの歴史的変遷
2.1 全体的なトレンド
SRE NEXTは2020年から現在に至るまで、SRE(Site Reliability Engineering)の実践と発展に関する重要な場として機能してきました。過去の発表内容を分析すると、以下のような変遷が見られます:
- 2020年: SREの基本概念の導入と組織構築に関する発表が中心。基本的なモニタリング手法やインフラ管理の実践例が多く見られました。
- 2022年: より具体的なSLO/SLIの実装事例や、多様な業界でのSRE適用例が増加。インシデント管理の体系化に関する発表も目立ちました。
- 2023年: AIとSREの統合が始まり、特定の課題に対する深掘りした解決策の提案が増加。マルチプロダクト環境でのSRE実践に関する発表も見られました。
- 2024年: AIとSREの統合が本格化し、組織間コラボレーションの重要性や、より成熟したSRE文化の構築に関する発表が増加。オブザーバビリティの高度化も注目されました。
2.2 主要テーマの推移
過去4回のカンファレンスを通じて、以下の主要テーマが継続的に取り上げられてきました:
- SRE組織と文化: 組織構築から成熟したSRE文化の醸成まで
- インシデント管理と障害対応: 障害検知から自動診断、効率的な対応プロセスまで
- 可観測性とモニタリング: 基本的なモニタリングから高度なオブザーバビリティまで
- インフラストラクチャと技術基盤: クラウド管理からデータベース基盤まで
- 自動化とデプロイメント: CI/CDから信頼性向上の実践まで
- セキュリティとAI: DevSecOpsからAIとSREの統合まで
- 特定業界・サービスのSRE事例: 様々な業界における実践例
3. テーマ別詳細分析
3.1 SRE組織と文化
このテーマは全ての年で最も多く取り上げられており、SREの導入から成熟までの様々なステージに関する発表が見られます。
トレンドの変化:
- 2020年: SREチームの立ち上げや基本的な組織構築に関する発表
- 2022年: 多様な組織へのSRE導入事例や、一人から始めるSREの実践例
- 2023年: プラットフォーム構築とSREの技術マネジメントに関する発表
- 2024年: ハイブリッド体制や事業フェーズの変化に対応するSRE組織の発展に関する発表
注目すべき発表:
- 「Central SREとEmbedded SREのハイブリッド体制で目指す最高のSRE組織」(2024)
- 「事業フェーズの変化を乗り越えるEnabling/Platform SREへの転換」(2024)
- 「複業SRE、どこまでいける?」(2024)
今後の可能性:
- 分散型組織におけるSRE実践
- グローバル組織でのSRE文化の統一と多様性の両立
- SREとプロダクトマネジメントの連携強化
3.2 インシデント管理と障害対応
障害対応はSREの中核的な責務であり、継続的に発表が行われています。
トレンドの変化:
- 2020年: 基本的な障害対応と学習プロセスに関する発表
- 2022年: ポストモーテムの運用やツール開発、スタートアップ向けのインシデント管理
- 2023年: 効率的なインシデント対応の取り組みに関する発表
- 2024年: AIを活用したインシデント対応トレーニングや組織的なインシデント対応の成熟度評価
注目すべき発表:
- 「An Efficient Incident Response Training with AI」(2024)
- 「組織的なインシデント対応を目指して〜成熟度評価と改善のステップ〜」(2024)
- 「備えあれば患いなし:効率的なインシデント対応を目指すSREの取り組み」(2023)
今後の可能性:
- AIを活用した予測的インシデント管理
- 大規模分散システムにおけるインシデント対応の自動化
- インシデント対応の知識管理と組織学習の高度化
3.3 可観測性とモニタリング
可観測性は年々重要性を増しており、特に近年は高度化が進んでいます。
トレンドの変化:
- 2020年: 基本的なモニタリング改善とObservabilityの実践
- 2022年: 外形監視の有効活用や、プロダクション環境の観測技術
- 2023年: 生成AIを活用した可観測性の開放
- 2024年: オブザーバビリティのマクロからミクロまでの体系化や、特定技術(WebRTC)の可観測性
注目すべき発表:
- 「オブザーバビリティのマクロからミクロまで〜あるいはなぜ技術書を翻訳するのか」(2024)
- 「すべてのエンジニアに可観測性を開放する 生成AIアシスタント New Relic Grok」(2023)
- 「SkyWayが遭遇したWebRTC の可観測性に関する問題と開発者向け可視化サービス提供までの道のり」(2024)
今後の可能性:
- エンドユーザー体験と内部システム状態を統合した可観測性
- 機械学習モデルとAIシステムの可観測性
- 分散トレーシングとメトリクスの高度な相関分析
3.4 SLI/SLOの実装と運用
SLI/SLOは信頼性エンジニアリングの基盤として、継続的に発表されています。
トレンドの変化:
- 2020年: SLO Reviewの基本的な実践
- 2022年: SLO決定のためのArt of SLOや、UXに近いSLI/SLOの運用
- 2024年: 大きな組織でのSLO導入と運用の難しさ
注目すべき発表:
- 「大きな組織にSLOを導入し運用するということ、その難しさ」(2024)
- 「KaaS桶狭間の戦い 〜Yahoo! JAPANのSLI/SLOを用いた統合監視〜」(2022)
- 「よりUXに近いSLI・SLOの運用による可用性の再設計」(2022)
今後の可能性:
- ビジネスメトリクスとSLOの統合
- 複雑なマイクロサービス環境でのエンドツーエンドSLO
- AIシステムのための新しいSLI/SLO設計パターン
3.5 AIとSRE
最も急速に成長しているテーマであり、特に2023年以降に顕著です。
トレンドの変化:
- 2022年: AIOpsの研究や自動原因診断に関する初期の発表
- 2023年: SREとして向き合うGenerative AIに関する発表
- 2024年: AIを活用したインシデント対応トレーニングや、AIチームを支えるSRE技術
注目すべき発表:
- 「敵対的SRE: 300個のジョブをAIチーム全員で支える技術」(2024)
- 「SREとして向き合うGenerative AI」(2023)
- 「An Efficient Incident Response Training with AI」(2024)
今後の可能性:
- LLMを活用した自動障害診断と修復
- AIシステムの信頼性エンジニアリング(AI Reliability Engineering)
- 生成AIを活用したSREツールチェーンの自動化
4. 2025年に向けたCFPの機会領域
過去の発表内容の分析から、以下のトピックがSRE NEXT 2025のCFPとして有望と考えられます:
4.1 高い可能性を持つトピック
-
AIとSREの深い統合
- 生成AIを活用した自動障害診断と修復
- LLMを用いたSREナレッジマネジメント
- AIシステム自体の信頼性エンジニアリング手法
-
次世代オブザーバビリティ
- ビジネスメトリクスとテクニカルメトリクスの統合
- エンドユーザー体験を中心とした可観測性
- 大規模分散システムの効率的なトレーシング手法
-
SREとプラットフォームエンジニアリングの融合
- 内部開発者プラットフォーム(IDP)とSREの統合
- セルフサービス化されたSRE機能の提供方法
- プラットフォームの信頼性測定と向上手法
-
新しい働き方とSRE
- リモート/ハイブリッド環境でのオンコール体制の最適化
- グローバル分散チームでのSRE実践
- 複業SREの発展形態と効果的な貢献方法
-
持続可能なSRE
- SREバーンアウトの防止と長期的なキャリア構築
- 環境負荷を考慮したSRE実践(Green SRE)
- 組織変化に強靭なSRE文化の構築
4.2 まだ十分に探求されていない領域
-
エッジコンピューティングとSRE
- エッジ環境での信頼性確保手法
- IoTデバイスフリートの信頼性管理
- エッジとクラウドのハイブリッド環境のSRE
-
規制産業におけるSRE
- 金融/医療/公共セクターでのSRE適用事例
- コンプライアンス要件とSREプラクティスの両立
- 監査可能なSRE実践の構築
-
量子コンピューティングとSRE
- 量子システムの信頼性エンジニアリング
- 量子-古典ハイブリッドシステムの運用
- 量子アルゴリズムの信頼性検証
-
Web3/ブロックチェーンとSRE
- 分散型システムの新たな信頼性パラダイム
- ブロックチェーンインフラの運用と監視
- スマートコントラクトの信頼性保証
-
SREと組織心理学
- 心理的安全性とSRE文化の関係
- 高信頼性組織(HRO)理論のSREへの応用
- インシデント対応における認知バイアスの影響と対策
5. CFP提出のための戦略的アドバイス
5.1 差別化のポイント
-
実践的な知見と具体的な数値
- 理論だけでなく、実際の導入事例や成果を含める
- 可能な限り定量的な改善指標を示す
- 失敗から学んだ教訓も価値がある
-
新しい視点や独自の切り口
- 既存のトピックでも、新しいアプローチや視点を提供
- 異なる分野の知見をSREに応用する
- 業界特有の課題とその解決策を提示
-
将来を見据えた内容
- 現在の課題だけでなく、今後3-5年で重要になる課題を予測
- 新技術のSREへの影響を考察
- 長期的なSRE進化の道筋を示す
5.2 効果的なプレゼンテーション構成
-
明確な問題提起
- 取り組んだ課題を具体的に説明
- なぜその課題が重要なのかを示す
- 他の組織にも関連する普遍的な要素を強調
-
解決アプローチの詳細
- 採用した方法論や技術
- 実装の詳細と工夫したポイント
- 代替案と比較した理由
-
結果と教訓
- 達成した成果(定量的・定性的)
- 予期せぬ課題とその対処法
- 次に取り組むべき改善点
-
一般化と応用
- 他の組織や環境への適用方法
- カスタマイズのためのガイドライン
- 今後の発展可能性
6. 結論
SRE NEXTは、日本におけるSRE実践の最前線を示す重要なカンファレンスとして発展してきました。過去の発表内容を分析すると、基本的なSRE導入から高度な実践、そして最近ではAIとの統合に至るまで、幅広いトピックがカバーされています。
2025年のCFPでは、AIとSREの深い統合、次世代オブザーバビリティ、SREとプラットフォームエンジニアリングの融合、新しい働き方とSRE、持続可能なSREなどが有望なトピックとして考えられます。また、エッジコンピューティング、規制産業、量子コンピューティング、Web3/ブロックチェーン、SREと組織心理学など、まだ十分に探求されていない領域も大きな可能性を秘めています。
効果的なCFP提出のためには、実践的な知見と具体的な数値、新しい視点や独自の切り口、将来を見据えた内容を含めることが重要です。また、明確な問題提起、解決アプローチの詳細、結果と教訓、一般化と応用という構成で、聴衆に価値ある情報を提供することが成功の鍵となるでしょう。
この分析が、SRE NEXT 2025へのCFP提出の一助となれば幸いです。
Discussion