📖

『SLO サービスレベル目標』読書記録

2023/10/27に公開

SLIは、サービスレベル指標

SLOは、サービスレベル目標

エラーバジェットは、あとどれだけ障害を起こして良いかを表す

信頼性は、サービスがユーザの必要とする動作を行える時間や確率の計測値を意味する

SLOと比較する対象を何と呼ぶべきか、本書ではあまり明確に示されていないが、「信頼性がSLOを超えているときに30分に3件の障害が発生する確率は、ごく小さなものです。」（194p）とあることから、SLOと信頼性を比較すると捉えて良いだろう
ただ、他に、「指標」と比較していたり「可用性」と比較していたりする部分があるため、解釈の余地がありそう

SLO基準のアラートを発行することで、ユーザにとっての悪影響がある場合にのみ高優先度で対応するということが実現しやすくなる

SLOは、ユーザが満足すること、ユーザが期待する動作をどれだけできているかを指標とするので、アラートに説得力がある

SLO基準のアラートには、高速のアラートと低速のアラートを設けることが推奨される

SLO未達の場合、つまりエラーバジェットが尽きた場合には、信頼性を回復するための対応に集中する必要がある

エラーバジェットは、挑戦にも利用できる

チームや組織にSLOを馴染ませていく手順も書かれている

『オブザーバビリティ・エンジニアリング』ではイベントベースのSLOを推奨しているが、本書（『SLO サービスレベル目標』）では、イベントベース・時間ベースどちらも長所短所があるので両方利用することを勧めている

『オブザーバビリティ・エンジニアリング』では、99.99%以上の信頼性を要求するようなサービスの場合を考慮して、イベントベースのSLOを推奨している
時間ベースのSLOだとエラーバジェットが不当に枯渇しやすいため
一方、本書では、一長一短を述べる
- 例
  - メトリクスの粒度やカーディナリティが高いレベルに達していない場合にイベントベースの計算に問題が発生すると述べるとともに、レイテンシーの計測についてはイベントベースに分があるという
前者は、オブザーバビリティを得るためには高いカーディナリティを達成することが必要、といった立場のようなので、前提とする考え方が異なるのだと思う

『サイトリライアビリティワークブック』では、本書（『SLO サービスレベル目標』）で示されていない道具や視点も提供されているので、併せて見るとより勉強になる

SLOの判断マトリクスは、SLO・トイル・顧客満足といった変数をもとにした行動決定の雛形として使える
顧客の階層によってSLOを変える、といった手法も紹介されている
但し、2.2 始めてみように書かれているSLO運用が効果を発揮する前提が厳しい
- この厳しい部分の突破方法、組織に馴染ませる取り組みのことだが、本書はこれについて多くの紙面を割いている