📈

信頼性向上の第一歩!~SLI/SLO策定までの取り組みと運用事例~に参加しました!

に公開

2025年3月21日に開催された信頼性向上の第一歩!~SLI/SLO策定までの取り組みと運用事例~に参加しましたのでそのレポートを簡単にまとめていきます。

https://findy.connpass.com/event/345990/

サービス品質や信頼性を担保するためのSLI/SLOはサービス向上に一役も二役も買ってくれる優れものですが、組織内での導入、運用に悩むこと場面も多いとのこと。今回のイベントでは、4名の方々が事例に基づいて、導入までの取り組みや運用上の課題とその解決策を共有していただき、今後のシステム改善に役立てることができるような内容になっていました。

今回の私のモチベーション

モチベーションは2つ

  1. 私が所属するチームでSLI/SLOについて導入はできている状態と捉えているものの、運用方法については模索中の状態
    → 運用方法に関して参考になる事例はないか気になっている
  2. ゴールデンシグナル(または、ゴールデンメトリクス)はモニタリングできている状態
    → サービスをより良いものにしていくために他に有効なSLI/SLOはないか気になっている

この【運用面】と【指標面】の2つを得るために参加しました。

講演1:SLI/SLOの設定を進めるその前に アラート品質の改善に取り組んだ話

内容

登壇:BASE株式会社 tandenさん (@tac_tanden)
資料:https://speakerdeck.com/tanden/slonoshe-ding-wojin-merusonoqian-ni-aratopin-zhi-nogai-shan-niqu-rizu-ndahua

「SLI/SLOの設定は長期戦になるため、逆に短期的な成果も大事でありそれがチームに勢いをもたらす」とおっしゃていたのが印象的でした。その成果の1つとしてアラート品質改善に取り組んだ事例を挙げられていました。通知チャンネルの整理、アラートの数の整理、通知を受けての手順の確立を実行し、社内認知と信頼を得ることができたそうです。

泥臭い改善があって初めて仕組みが浸透していくことを学びました。

活用できそうなこと

  • 【運用面】アラートの整理を実施することで、真に重要な指標のモニタリングに専念できる。「選択と集中」が大事!

講演2:開発組織全体で意識するSLI/SLOを実装している話

内容

登壇:シンプルフォーム株式会社 守屋邦昭さん (@Zepprix)
資料:https://speakerdeck.com/zepprix/slowoshi-zhuang-siteiruhua

元々メトリクス、監視体制、ユーザから問い合わせがある前に検知する仕組みが整っており、SLOは当初は不要だと思っていました。
しかし、各チームの品質担保への価値観や意識の違いが課題となっているところから導入を志したようです。
「SLI/SLOを品質や性能担保への価値観や意識の違いを標準化させるため」に活用するというやり方や「SLI/SLOの検討には開発関係者だけでなく、顧客目線も入れるためにCSメンバーにも入ってもらって検討をする」ということがとても印象的でした。

活用できそうなこと

  • 【運用面】CSメンバーの悩みや辛みからサービス改善していくためにヒアリングをしても良さそう
  • 【指標面】可用性に関する指標だけでなく、データの鮮度などを指標にするなど、ゴールデンシグナル以外の指標を設定しても良さそう
    • APIレイテンシーやエラー率だけでなく、データ精度やセキュリティ、データの収集からユーザへの提供までのリードタイムなど、アプリの仕様に合わせた重要性の高いものを指標にする

講演3:SLI/SLO・ラプソディあるいは組織への適用の旅

内容

登壇:株式会社スリーシェイク nwiizoさん (@nwiizo)
資料:https://speakerdeck.com/nwiizo/slorapusodeiaruihazu-zhi-henoshi-yong-nolu

SLI/SLOの導入の心構えについて話されていました。導入成功のためには「変化への抵抗」、「ステークホルダーの協力」、「長期的な価値」の3つの側面と向き合う心構えが必要とのこと。特に印象的だったのは、SLIの設定に「ユーザにとってシステムがどうあるべきか」をもとに選定することとおっしゃっていたこと。誰にとってのシステムか、なんのためのSLI/SLOかを考えさせられる内容でした。

活用できそうなこと

  • 【運用面】マインドとして、SLIの設計原則に「顧客体験が良好か」を測定するという点で選定するとおっしゃっていたので、この考えは刻もうと思った

講演4:SREとしてSLI/SLOをどう普及してきたか、CTOとしてSLI/SLOをどう活用しているか

内容

登壇:株式会社ユーザベース 安藤 裕紀さん (@integrated1453)
資料:https://www.docswell.com/s/integrated1453/KL1RRP-sli-slo-cto

https://www.docswell.com/s/integrated1453/KL1RRP-sli-slo-cto

NewsPicksでの実例をもとにどのように導入し、運用されてきたかを話されていました。開発チームがSLOモニタリングと改善を自走できるまでサポートするように仕組み化やエスカレを実施するなどし、約3年間かけてSLO違反のエスカレーションを民主化していったそうです。

活用できそうなこと

  • 【運用面】SLOモニタリングと改善を自走できるように自身がリードできるように運用を整えていく必要性を感じた

最後に

SLI/SLOを継続的に運用していくためには長期的な努力が必要だと感じました。
他社の事例も活用しながら、自身が所属するチームが関わるサービスをより良いものにしていくために少しずつ動いていこうと思います。

Discussion