🦎

【イベント参加記録】3-shake SRE Tech Talk 年末特別会!!

1 min read

表題のイベントに視聴者として参加しました。
自分のSREとしての業務はまだまだヨチヨチ状態ですが、複数の会社のSREの取り組みを聞くことができて面白かったです。
個人的に特に記憶に残ったトピックについてのメモを残しておきます。

イベントページはこちら: 3-shake SRE Tech Talk 年末特別会!!
イベント録画はこちら:

https://www.youtube.com/watch?v=xreyM_gAAAI

SRE導入のお話

SLOの導入で失敗したこと

  • 組織構成
    • 開発チーム(自社)がサービスごとに分かれており、SREチームが共通基盤&仕組みを提供
  • やったこと
    • Critical User Journey (CUJ) を軸にしたSLOを策定
  • 反省点
    -「リリース禁止」はインパクトが大きい → 禁止はやめ、PM判断で優先度が高いものはリリースGoする
    • SLOを”見直す”観点が無くなっていく
    • 違反時の対応フローが決まっていない → 見るツールを一本化して、対応負荷を減らす
    • 障害タイミングにより、エラーバジェットが急速に枯渇してしまう

SI委託なエンタープライズでSREに求められること

  • 組織構成
    • 開発/運用の実作業は基本的にSI委託
    • 社内では主に設計レビュー/再起動等オペレーションの判断などを行う
  • SI委託モデルの現場でも、自組織に合うようにチューニングしつつ、SREの考え方を参考にできる
  • 悩み
    • 従来、障害→緊急対応!!であるため、優先度やエラーバジェットの概念の導入が難しい
  • Google本にあるSRE業務以外にこんなこともやっている
    • 社内ポリシー、ベストプラクティスの整備
    • 共通基盤の構築・保守(インフラ)
    • 自社社員のエンジニアリングスキル強化

具体的な技術/運用Tipsのお話

SRE 導入の前にやっておきたいこと(Google Cloud 編)

  • SREチームとして発足する前に、トイルの芽を摘んでおく
    • 例:権限付与の依頼がめちゃくちゃ来るのを防ぎたい
  • 方針
    • 影響範囲の大きい課題から取り組む
    • 課題を分割して小さく始める

GCPにおけるPrometheusのマネージドサービスについて

Prometheusの運用上の課題を解決したいが、サードパーティ製品で解決しようとするとアーキテクチャが複雑化して運用が辛くなる。そこでGoogle Cloudのマネージドサービス「Google Cloud Managed Service for Prometheus」を使った。というお話。
具体的な設定等はこちらに記載がある

https://qiita.com/yosshi_/items/9e40a88bf2acf3e2bf80

座談会より

  • 障害対応経験はスキル強化になった
  • 各社、SRE的な業務の歴史は様々だが被る業務はこれまでもやってきた
  • スキルの磨き方
    • おうちに環境立てる(つよい)、手を動かす、クラスタ消してみる(笑)
    • 自分の強みのある分野を特に磨く
    • 周囲に認められるポイントが強みかも

Discussion

ログインするとコメントできます