SRE本

エラーバジェットはSLO（四半期内に期待されるサービスの稼働時間）から算出され、一つの四半期内でサービスの信頼性がどの程度損なわれても許容できるかを示す明確で客観的なメトリクス。
プロダクトの開発速度を求めるプロダクト開発者と、信頼性を求めるSREがこのメトリクスを共有することでプロダクトのリスクについて共通の結論に辿り着くことができる。

ktoyod

SLI: サービスレベル指標。多くのサービスではリクエストのレイテンシを考慮する。（それ以外だとエラー率やシステムスループット。）また、可用性や耐久性も重要。

ktoyod

SLO: サービスレベル目標。SLIで計測されるサービスレベルのターゲット価、あるいはターゲット値の範囲。

ktoyod

SLA: サービスレベルアグリーメント。ユーザーとの間で結ぶ明示的、あるいは暗黙の契約であり、その中にSLOを満たした場合（あるいは満たせなかった場合）に関する規定が含まれる。

ktoyod

SLO設定の際、安全マージン（顧客に見せるSLOと内部的なSLO）を確保すること、過剰達成を避けること（ユーザーは実績から評価する）に注意する

ktoyod

トイルとは、

プロダクションサービスを動作させることに関係する作業で、
手作業で繰り返し行われ、
自動化することが可能であり、
戦術的で長期的な価値を持たず、
作業量がサービスの成長に比例する

といった傾向を持つもの

ktoyod

Google の SRE 組織では、トイルを作業時間の50%以下に抑えるという目標が掲げられており、最低でも50%は将来のトイルを削減するか、サービスの機能を追加するエンジニアリングプロジェクトの作業に費やす。

ktoyod

モニタリングにおける4大シグナル
レイテンシ
トラフィック
エラー
サチュレーション