🎫

ゆるSRE勉強会#6 参加レポート

2024/06/08に公開

はじめに

2024/06/06に開催された「ゆるSRE勉強会#6」にブログ枠で参加してきたのでレポートをまとめます!

ゆるSRE勉強会 #6
https://yuru-sre.connpass.com/event/317749/

僕自身はゆるSRE勉強会に始めての参加となります。
主催の @katainaka0503 さんに確認してみたところ、セッションの内容については資料を見たり参加した人はわかるので、自身の感想を厚めに書いてほしいと言われたのでできるだけ想いに沿ってまとめてみます。

今回の会場スポンサーは インフラ・SREの日常業務にアプローチする「イベントログの一元監視サービス」の srest さんとのことです。

Xの投稿はTogetterにまとめられています。
https://togetter.com/li/2379335

ゆるSRE勉強会とは?

connpassでは以下のように説明があります。

"ゆるSRE勉強会"は、ゆるい雰囲気で肩肘張らずにSRE関連のトピックについて話す勉強会です。
「こんな問題を解決した!」や「他チームとのコミュニケーション/コラボレーションでこんなことをやった!」などなど、様々なお話を聞いたり話したりしていきましょう。
初心者SREの方や他職種からSREに挑戦中の方もお気軽にご参加ください!
X(旧Twitter) ハッシュタグ: #yurusre

SREを目指す方、SRE初心者、ベテランSRE、まで誰でもゆるくSREについて学べる場を提供したいという想いが込められた勉強会とのことです。
SREという職種は認知度や需要がどんどん高まってきていると感じられるので、ゆるく参加できる定期的な勉強会の存在は大きいなと思います。

セッション

今回は9名の方のSREに関する様々なテーマのLTがありました。
途中でプロジェクタのトラブルがあってスクリーンが映らなくなったものの、即座に代替ディスプレイに切り替えてフォールバックして会を進められたのは流石SREのイベントだなと感じました。
どんな予期せぬ自体にも慌てず対処できるスキルはSREにとって重要だと思います。

会場スポンサーLT 『プロダクト横断で可視化するダッシュボードの開発』 @sre_yamakitap さん


ダッシュボードの構成は好みがわかれて作るのが結構大変なので、デフォルトでダッシュボードが用意されているsrestというサービスはとても可能性を感じました。

『SREのように歩き、SREのように鳴くときに』 @maruloop さん

資料
https://t.co/QLgBhonAWW


チームトポロジーを元にしてSWEsとSREsの関わり方についてのLTでした。
印象的だったのは ヨチヨチ父 という書籍から父と母と子供の視点をSWEsとSREsに重ねていた点です。
イネーブルメントチームは一緒にやっているつもりでも、ストリームアラインドチームから見ると壁を感じるのはまさに父と子の視点の違いだなと思います。
SWEsの視界に常にSREsが入ることは意識してやってみたいなと思いました。

『TiDB に移行してみたが、実際どうなん?』 Kaoru Oda さん

資料
https://speakerdeck.com/okaru/yurusremian-qiang-hui-number-6-lt


MySQL互換のNewSQLであるTiDBを導入したLTでした。
コストとスケーラビリティが移行の大きなモチベーションとのことでした。

『ソフトウェアエンジニアの小さく始めるオブザーバビリティ』 @pHaya72 さん

資料
https://speakerdeck.com/phaya72/toarusohutoueaenzinianoxiao-sakushi-meruobuzababiritei


開発しているサービスが異常を検知できなかったり、異常が発生しても歴戦の戦士しか発生箇所を特定できない、などの課題に対して小さくオブザーバビリティを始めてみたLTです。
入門監視に従いユーザーとやりとりがあるところにフォーカスし、OpenTelemetryを使いGoogle Cloudに集約するというお話でした。
Google Cloud Stack or Grafana Stack + Prometheus に関して様々な軸で比較して、結果Google Cloudを選定したのが印象的でした。

『アプリケーションエンジニアと歩むインフラ運用』 @hetare70914 さん


アプリ2人・インフラ1人のチームでインフラ運用を冗長化するまでのストーリーのLTでした。
12-Factor AppやAWS基礎やIaCに関してペアプロを駆使してナレッジシェアして、結果TerraformのPRをアプリ開発者が作ってくれるように1人で文化作りを推進したのは素晴らしすぎます。

『ゆるっと話すSLI/SLOを設定してよかったことと出来てないこと』 @maaaato さん

資料
https://speakerdeck.com/maaaato/slowoshe-ding-siteyokatutakotochu-lai-teinaikoto


コアなユーザー体験である3つのCUJをベースにSLOを策定した話はとてもユーザーに向き合っていて良いSLOの決め方だなと感じました。
隔週でパフォーマンスチェックを実施したり、オンボーディングでSLOの説明会を実施したりと、参考になりそうなプラクティスが多かったです。

『不要な DNS リソースレコードは消そう!(一敗)』 @wa6sn さん

資料
https://speakerdeck.com/wa6sn/delete-unused-dns-records


サブドメインが乗っ取られた恐ろしい話😱
DNS takeoverという使い終わったドメインが狙われる脆弱性を知りました。
「建物を取り壊すなら案内板も外さないといけない」「現代は作るハードルは下がったが捨てるハードルは下がってない」など物作りにおいて重要なメッセージが随所に垣間見えました。

『SLO Docsのすゝめ』 @ryuichi_1208 さん

資料
https://speakerdeck.com/ryuichi1208/slo-docsnosu-me


SLOが思ったよりスムーズに運用できていない課題に対して、SLO Docsを用いて解決していくLTでした。
OpenSLOを用いてyamlを書いたらアラートやダッシュボードが自動で作成される仕組みは情報が集約されて良さそうなので試してみようと思いました。

『オブザーバビリティ勉強会で模擬障害対応をやってみた』 @gamonges_eng さん

資料
https://speakerdeck.com/leveragestech/obuzababiriteimian-qiang-hui-demo-ni-zhang-hai-dui-ying-woyatutemita


チームのオブザーバビリティの解像度に感じた課題を実際に模擬障害対応を実施して解決していくLTでした。
模擬障害対応は定期的にやるべきと考えている方は多いと思いますが、実施準備やコスト説明など考えると実際にやれている組織は多くないと思うので参考になりました。
障害に対応する方はISUCONに近いゲーム間隔でカジュアルに体験でき、出題者側はシステムの仕組みを理解できる良い機会になる、などリアルな声が聞けたのが良かったです。

懇親会

美味しいピザとビールを片手に乾杯!🍻
軽食などは株式会社メタップスホールディングスさんの提供とのことでありがとうございます。
懇親会の参加率が高く、会ったことがある方とも初めましての方ともたくさん交流できました。

おわりに

今回初めてゆるSRE勉強会に参加しましたがカジュアルな雰囲気で多くのSRE事例を知れて学びになり、今後も参加してみたいなと思いました。
SREという職種はSRE本を読むと概念は理解できますが、実際に自身の会社に導入しようとするとサービスの性質やフェーズや組織によって求められることが違いとても難しいと感じます。
今後もこのような勉強会を通じてSRE文化が広まり、信頼性の啓蒙に悩んでいる多くの方にとって少しでもプラスになれば良いなと感じました。

Discussion