SRE歴2週間の新人が「ゆるSRE勉強会 #2」に参加してみた
10/20に開催されたゆるSRE勉強会 #2に参加してみました。参加時点で自分はSREチームに入ってから2週間しか経っていませんでした。そんなよちよち歩きの新米SREが、ゆるSRE勉強会に参加して感じたことを記します。
各セッションの感想
各セッションの概略と感想を述べます。最初の3人は15分の発表、あとの4人は5分のLT枠での登壇でした。セッションの詳細と資料は、上記のconnpassページとその中の資料を参照してください。
「SLO Review」今やるならこうする(chaspyさん)
chaspyさんはSRE NEXT 2020にて「SLO Review」というタイトルで登壇しました。発表では、自チームへのSLI/SLOの導入に際して苦労した点や、その経験を踏まえた上でのtipsが説明されています。
今回の発表では、SLI/SLOの導入や、もっと広いSREという活動にどう取り組むのがよいかということについて語られていました。具体的には、以下のようなキーワードに沿って、chaspyさんの経験に基づいてSREがどう立ち回るべきかを語られていました。
- ボトムアップ/トップダウン
- メンバー/マネージャー
- 中央集権/地方自治
- 手段/目的
- 合意形成
- ビジネス/エンジニアリング
- インセンティブ設計
- ひとり/みんな
- 説得力
- 失敗/成功
このchaspyさんの発表が人生で初めて聴講するSRE関連の発表でしたが、技術的な話がほとんどなかったことに驚かされました。特に印象に残っているのは、最後に「コミュニティに頼ろう」というメッセージを発信されていたことです。これまでに参加したアプリケーションサイドの勉強会では、コミュニティがここまで強調されるのはほとんど見たことがないです。勉強会の全体的な雰囲気も知り合い同士が多く和やかなで、「SREコミュニティ」の強さを感じました。
ポストモーテムの基礎知識と最新事例(清水さん)
ポストモーテムに関する基礎知識や、清水さんの携わっている「家族アルバム みてね」におけるポストモーテム運用と文化について、そしてポストモーテム文化を広げるにはどうすればいいかということを説明されていました。
他社のチームのポストモーテム文化についてお話しをうかがう機会は少ないため、大変参考になりました。エンジニア以外のメンバーが起票することもあるというレベルまでポストモーテムの文化が浸透しているのは素晴らしいことだと感じました。
発表の中で印象に残ったのは、「書いて終わりにしない」というキーワードです。自分の中ではポストモーテムと障害報告書の区別もあいまいだったので、これからは「共有する・みんなで読む・学ぶ」を意識してポストモーテムを見ていきたいと思います。
失敗?それとも学び?(maruさん)
maruさんは最初に、リスク受容の事例や失敗談をカンファレンスなどであまり聞かない、ということを指摘します。それを踏まえて、LINEにおいて、最重要機能でもリスクを受容することを選択した事例や、当初受容できていたリスクがビジネスの成長とともに受容できなくなった事例を紹介していただきました。
すべての機能についてSLOを定義して運用するのは厳しいこと。常にリスク受容について対話できるように、開発側・事業側と強い連携をとり続けること。最後には 「信頼性は会話です」 というメッセージを述べていました。
maruさんが発表でおっしゃったとおり、各社のリスク受容に関するエピソードを聞ける機会は少なく、こういった話でも気軽に発表できるゆるSRE勉強会の懐の深さ(?)がすばらしいと感じます。SRE is the way of life!
組織を創るカンリーSRE(井上さん)
カンリー社は、サービスの増加に伴って、インシデント時の対応や振り返りなどの機能開発以外の部分が上手くいっていないという課題を抱えていました。そこで、「イノベーションの加速と信頼されるサービス基盤の提供を両立させる」 ことをミッションとしてSREチームが発足しました。
SREチームを0から立ち上げた体験に基づいて、「土台作りと各種プロセスの浸透が必要」というカンリーにおけるSREの役割について説明していただき、自分の名乗っているSREというロールの役割を再認識するいい機会になりました。
設計という共通認識(鈴木さん)
井上さんは、オンプレからクラウドへの移行に際して、設計を共有せずにステージング環境を作成する巨大なPRを出してしまったそうです。共通認識 を揃えることなくPRを投げてしまった結果、誰もレビューすることなく放置されてしまっていました。
この経験を通して、発表では「共通認識を揃える」「経緯を資料として残そう」「ちいかわPR」などのキーワードとともに、気持ちよくレビューしてもらえるPRの書き方を紹介してくださいました。
PRになにを書くべきかというのは、自分がPRを投げるたびに悩んでいるところです。この発表は注意するべきポイントをキャッチーなフレーズで列挙してくれていて、大変参考になりました。自分も 共通認識 というキーワードを念頭にPRを書いていきたいと思います。
// あおいもりんちゃん、覚えました
TerraformでもSQLスキーマを管理したい(kota65535さん)
SQLのスキーマ管理を宣言的にできるツールを自作した話です。
伝統的な手法では都度マイグレーションファイルを追加していきますが、ariga/atlasなど、宣言的にスキーマを管理できる(ツール側が自動的にマイグレーションを作成・実行してくれる)ツールも存在します。kota65535さんも、そのようなツール(kota65535/alternator]を作成されたそうです。
どういう実装になっているのか、ぜひ詳しい話を聞いてみたいです。
k6で負荷試験をやってみた話(山田さん)
Grafana Labsのk6というOSSの負荷試験ツールに関して発表していただきました。
JavaScriptでテストコードを書けることや、Grafana Cloudと統合してシュッと可視化できることが大変便利そうに見えました。機会があったらぜひ使ってみたいです。
Kubernetesアップデートのツラミで気付いたデプロイ手順の歪み(逆井さん)
KubernetesのAPIが非推奨となった際のアップデートで苦労した話です。
全てのサービスについて、修正箇所を目grep。マニフェストの更新後も、Helmfileコマンドが前回のデプロイ時のマニフェストを参照し、廃止されたAPIを内部的に呼んでエラーが出るなど、苦労の詰まったお話でした。
Kubernetes運用のツラミ100選の1つにすぎないということで、Kubernetesの運用は辛いようです……。
参加した感想
「ゆるSRE勉強会」という名前に違わず、優しい雰囲気の勉強会でした。
SREは、ただインフラを整備したり、作業を自動化したりということにとどまらず、人・組織・文化など、幅広い概念を相手に取り組む活動であるということが伝わってきました。技術的な事項にとどまらず、人間同士の感情に満ち溢れた「ソフト」な側面が非常に大きく、特定のチームの事例が他のチームに適用できないことも多いと推察します。だからこそ、いろいろな発表を「ゆる」く受け入れるゆるSRE勉強会が貴重な場であると、なんとなく感じました。
これからもゆるSRE勉強会には参加していきたいし、いつかは登壇もしてみたいと強く感じる、すばらしいコミュニティだと思わせていただきました。
Discussion