Closed4
SRE サイトリライアビリティエンジニアリングを読んだメモ
明確な定義は難しい。SREは信頼性を最重要とするが、十分な信頼を持っていれば機能追加もする。
どういう問題が起こりうるか、それを避けようとする強い意志をもつこと
50%は開発の時間にしよう
モニタリングでは、アラート、チケット、ロギングを使い分ける。人間はアクションをしけない場合のみ通知を受けること
SREの原則 3章重要
稼働時間の最大化ではなく、可用性のリスクとイノベーションの速度や運用効率のバランスをとること。必要以上に信頼性を高めることはしない。
リスク管理にはコストがかかる。
3.2
サービスリスクの計測として計画外の停止時間に注目する
可用性測定として、稼働時間から測定、成功リクエスト数から測定がある
3.4
障害の許容度、テスト、デプロイの頻度などの判断はデータに基づくべき。希望は戦略にあらず。
本当は内部用としてSLOをちゃんと設定するべき。
4章 サービスレベル目標
SLI,SLOもちゃんと設定すべし
追跡できるメトリクスを全てSLIにするべきではない
多すぎると大切な指標を見失う
borgmon,prometheusといったモニタリング、ログ分析を実施する。cloudfrareが使えないか調べる
client側のメトリクスも注意する
レスポンスタイムのばらつきが大きいシステムより、やや速度が遅いシステムのほうが好まれる
SLIを決める場合に定義を標準化しておく。集計期間は1分とする、など
目標を決めるとき自分たちが計測できるものではなく、ユーザが気にすることが何かを考える
SLOを設定する場合は4.3.2を読む
このスクラップは2021/07/26にクローズされました