📘

SRE NEXT2022に、障害対応(OnCall)改善について発表します

2022/05/13に公開

この記事は、2022/05/14-15にオンライン開催される「SRE NEXT 2022」での登壇内容の紹介です。

私の発表は「LINEスタンプの実例紹介:小さく始める障害検知・対応・振り返りの改善プラクティス」と題して、5/14(土) 17:15からです。
https://sre-next.dev/2022/schedule#jp19

内容とか見どころとか

最近のマイブームが、実際に業務で実践した内容をGoogle SRE本の特定の章と紐づけて、「私達のサイトリライアビリティワークブック」として発表することです。
3月には「21章 過負荷への対応」をテーマにした発表を行いました。
https://zenn.dev/maruloop/articles/c9a997865ad470

今回は障害対応の改善プラクティスと銘打っていますが、実態としては「28章 SREの成長を加速する方法:新人からオンコール担当、そしてその先へ」に対する
私たちのチームでのワークブックとなっています。

LINEスタンプは去年で10周年を迎え、成熟しつつもまだまだ新機能が追加されていて、成長している段階です。
そういったプロダクトでも、もちろんエンジニアの出入りはあり、チームメンバーが入れ替わっていきます。
チームのライフサイクルが、プロダクトの、特に障害対応の品質に与える影響というのは、一般論として小さくないと思います。
特定領域のスペシャリストが抜けた結果、その部分を改善する能力が落ちるのは必然ですし、障害対応時のレスポンスもどうしても遅くなってしまいます。

そういった属人性を排除するためのプラクティスというのは、技術選定をはじめ、様々あると思いますが、
今回の発表では、「オンコール担当者を育てる」プラクティスとして、1年以上実践して成果が出ているものを紹介します。

想定対象者

  • 1人目のEmbedded(Enabling) SRE
    • 自分がオンコールを担当できるようにならないといけないし、それを仕組化して、次に入る人へ適用しないといけない方
  • 特定個人のスペシャリストに依存していることに危機感を覚えているManeger/Leader/SRE
    • 特にジュニアなメンバーがいるにも関わらず、うまく障害対応に関与させられていないと思っている方

その他

特定のツールなどには言及せず、最初から最後までプラクティスの話になります。
Q&Aの時間も発表後にありますので、ご興味ある方はぜひぜひ御覧ください。

Discussion