🧭

SRE NEXT 2025 参加レポート [オンライン]

に公開

はじめに

こんにちは。技術研究チームの石井です。
先日開催された SRE NEXT 2025 にオンラインで参加しました。SRE NEXT は Talk NEXT をテーマにした SRE(Site Reliability Engineering) のカンファレンスです。

私が所属する Thinkings 株式会社では、採用管理システム sonar ATS を10年以上運用しています。長寿サービスならではの技術的負債や運用負荷が蓄積されていていましたが、これまで技術研究チームの業務内で SRE のプラクティスを実践して改善を続けてきました。

現在でもある程度プラクティスは実践できているものの、さらに高いレベルで実践すべく"他社はどう課題を捉え、どんな取り組みを行っているのか?"を学びたいと思い、SRE NEXT に参加しました。

このブログでは、イベントの中でも特に印象に残っている3つのセッションについて、概要と感想をまとめています。

参考資料

以下はイベントに関する参考資料です。

  • SRE NEXT 2025 資料一覧
    イベントの資料はこちらにまとめて記載されています。このブログで紹介しきれていない発表資料はこちらを参照してください。
  • SRE NEXT Assoc.
    SRE NEXT のコーポレートサイトです。カンファレンスのアーカイブ動画公開などはこちらに更新されるようです。

セッション紹介

SRE不在の開発チームが障害対応と向き合った100日間

概要:
株式会社ログラスの勝丸 真さん(@shin1988)の発表です。

SRE チームがいない組織でインシデント対応のベストプラクティスを実践していくプロセスとその結果についてのお話でした。

ログラスの開発チームは、インシデント対応の運用ルール自体は整備済みでした。しかし、エンジニアメンバーは運用を回せていると思っていたのに、CS(カスタマーサクセス)チームから見ると「情報が遅い・足りない」というギャップがあることがわかりました。
そこで、現状分析 → 課題の言語化 → 100 日間の集中改善 を実践してフローと体制をアップデートしました。取り組みの中では対話と協業について話していました。

感想:
チーム間で運用に認知のズレが出るのはあるあるだな~と感じました。特に CS チームは顧客対応を行っているため、より早く正確な情報(わかっていること、わからないことも含めて)が必要になるのはどこの組織でも同じだと感じます。

いくつかの取り組みの中で印象的だったのは「インシデントの再定義」と「Waroom を使用したインシデントコマンダー業務の型化と自動化」です。これによりインシデント対応フローが簡素化されただけでなく、スキルに依存せずに一定のクオリティで対応できるようになった点が効果的だと感じました。

複雑なインシデント対応フローを刷新するためにインシデントとはどういったものか?を改めて定義されていました。その結果として、フローが簡素化し巻き込む人を変更すると言った結果につながっていました。

インシデントコマンダーが担当する業務は属人化しやすく、人の持つスキルによって対応のクオリティに差が出ていました。Waroom を導入することでスキルに依存することなく、ある程度均一のクオリティで対応ができているとのことでした。

多くの取り組みで成果が出たものの、教科書に書かれているような世界にはならなかったようです。しかし、そこで諦めずに関係者と「対話」を積み重ねることで、最終的に合意形成を図り解決に至ったとのことでした。いくつかの発表でもこの「対話」は重要なキーワードになっていました。

時間はかかるものの、チーム間で信頼関係を築きつつ対応の落とし所に持っていっているのが非常に印象に残っています。SRE はどうしてもプラクティスが先行しがちですが、こういったコミュニケーションを実践していくことも非常に重要なプロセスですね。

SREチームの越境と対話〜どのようにしてイオンスマートテクノロジーは横軸運用チームの廃止に至ったか〜

概要:
イオンスマートテクノロジー株式会社の齋藤 光さん(@hikkie13)の発表です。

ビジネス・開発・運用・インフラチームの間にそびえ立つ壁があった組織に SRE の取り組みを越境させる方針を採用しました。

感想:
こちらでもキーワードとして「対話」が取り上げられていました。いきなり対策を実践するのではなく、小さく始めて最終的に不安を取り除いてから実践するという進め方は勉強になりました。

他にも、意見交換のハードルを下げるために会議の名称を工夫すると言った取り組みもありました。小さな工夫ですが、参加している人の心理的ハードルを下げる効果はあったようです。

全体を通して小さく始めて長く続けるプラクティスが詰まっていました。継続すること自体、いろいろなハードルがありますが少しでも参考にできたらと思います。

マルチプロダクト環境におけるSREの役割 〜SmartHRの組織立ち上げから学ぶ実践知〜

概要:
株式会社SmartHRのsugamasaoさん(@sugamasao)の発表です。

マルチプロダクト環境で SRE チームを立ち上げる際の課題や取り組んだことについてのお話でした。

マルチプロダクトを開発していく中で、それぞれの開発チームがプロダクトの新規立ち上げから、開発、インフラ構築、運用を行っていました。しかし、プロダクトが増えていくことで頑張るだけでは無理が出てきたことにより SRE 組織の立ち上げに踏み切りました。

SRE の有識者が不在の中でも、「Google の提唱する組織の信頼性成熟度」を土台にロードマップを設計されたそうです。これにより、各フェーズでの着実な改善が可能になったとのことでした。

感想:
マルチプロダクト環境ゆえの課題に対して、SRE の有識者がいない中でフレームワークの導入や取り組みを実践していくという内容でした。特に印象的だったのはアジャイルのプロセスである「インセプションデッキの導入」や「Google Cloud Well-Architected Framework」を活用してロードマップを作成するといった取り組みでした。これらの取り組みの成果として、チームの期待値を揃えられて注力するポイントを見失うことが無かったとのことでした。

チームで取り組む以上、こういった方向性を見失わないような対策というのも非常に大切ですね。

おわりに

今回、初参加ということで楽しみにしていましたが、思った以上に勉強になる話を聞けました。

Thinkings 株式会社でも、SRE の取り組みは少しづつ実践しています。今回のイベントで登壇者の方々が組織の課題に対してどのように SRE を取り入れて、浸透させていったのかを語っていただけたことで、自分もやってみたい!という気持ちになりました。現状を振り返り、今後組織で SRE の活動を考える非常に良い体験となりました。

来年の SRE NEXT もぜひ参加したいと思います!


なお、Thinkings では SRE の取り組みを一緒に実践してくれるメンバーを絶賛募集中です!様々な事業の課題に対して一緒に挑戦していただける SRE の皆さんをお待ちしています。

Thinkingsテックブログ

Discussion