SRE サイトリライアビリティエンジニアリングを読んだメモ

明確な定義は難しい。SREは信頼性を最重要とするが、十分な信頼を持っていれば機能追加もする。

どういう問題が起こりうるか、それを避けようとする強い意志をもつこと

50%は開発の時間にしよう

モニタリングでは、アラート、チケット、ロギングを使い分ける。人間はアクションをしけない場合のみ通知を受けること

SREの原則　3章重要
稼働時間の最大化ではなく、可用性のリスクとイノベーションの速度や運用効率のバランスをとること。必要以上に信頼性を高めることはしない。
リスク管理にはコストがかかる。

3.2
サービスリスクの計測として計画外の停止時間に注目する

可用性測定として、稼働時間から測定、成功リクエスト数から測定がある

3.4
障害の許容度、テスト、デプロイの頻度などの判断はデータに基づくべき。希望は戦略にあらず。
本当は内部用としてSLOをちゃんと設定するべき。

4章　サービスレベル目標
SLI,SLOもちゃんと設定すべし

追跡できるメトリクスを全てSLIにするべきではない
多すぎると大切な指標を見失う

borgmon,prometheusといったモニタリング、ログ分析を実施する。cloudfrareが使えないか調べる

client側のメトリクスも注意する

レスポンスタイムのばらつきが大きいシステムより、やや速度が遅いシステムのほうが好まれる

SLIを決める場合に定義を標準化しておく。集計期間は1分とする、など

目標を決めるとき自分たちが計測できるものではなく、ユーザが気にすることが何かを考える

SLOを設定する場合は4.3.2を読む

このスクラップは2021/07/26にクローズされました