🦘

Google Cloud社にSRE Jumpstartを開催いただきました

2023/02/03に公開

はじめまして。
株式会社ココナラのシステムプラットフォーム部インフラ・SREチームに所属しているぐっさんです。
本記事では2023年1月にGoogle Cloud社にSRE JumpstartのWorkshopを開催していただきましたので、このWorkshopで学んだことを紹介したいと思います。

SRE Jumpstartについて

SRE(Site Reliability Engineering)とはシンプルに表現すると、Google Cloud社が提唱しているサービス運用における考え方や役割になります。
SREについての詳細は英語にはなりますがこちらのページで公開されており、無料で閲覧することができます。
日本語で読みたい場合はオライリー社から、いわゆるSRE本と呼ばれている本が出版されているので、こちらを購入することで読むことができます。
もちろん、ココナラでもSRE本は購入済み[1]で自由に読むことができます。
SRE本

今回開催いただいたSRE Jumpstartでは、SRE本の中からSREについての基本的な事柄についてフォーカスした内容を解説していただきました。
大まかには下記のような内容となります。

  1. SREの基本的な役割についての解説
  2. SREで用いられる用語の紹介と解説
  3. ディスカッション

ここからは、それぞれのパートで学んだことについて紹介いたします。

SREの基本的な役割についての解説

なぜSREが必要となるのか、というGoogle Cloud社での成り立ちの話から始まり、SREにおいてどのような観点でシステムを運用しているのかといったSREの基本について説明いただきました。
加えて、DevOpsとSREの違いやSREにおける基本となる考え方など、SREについて詳しくない人であってもSREの役割がイメージできる内容となっていました。

SREで用いられる用語の紹介と解説

SREを語る上では切っても切り離せないSLIやSLO、エラーバジェットなどの用語を中心に用語の解説をしていただきました。
ここのパートでは具体的なシチュエーションなどを交えて解説を行っていただいたこともあり、用語の意味を理解すると共に、指標としての重要性が分かる内容となっていました。

ディスカッション

このパートではこれまで解説いただいた内容を踏まえた質疑やヒアリングが行われました。
以下、一部ですがディスカッションした内容をご紹介いたします。

監視に関する課題
ココナラでは複数の監視サービスを用いてシステムの監視を行なっており、十全とまではいきませんが概ね必要な監視ができている状態です。
例えばSLIなどは下記のようにGrafanaでモニタリングを行なっていたり、メトリクスの一部はDatadogでモニタリングを行なっていたりしています。
Grafanaの画面

このような環境ですが、監視の項目がメンテナンスは定期的に行われていない、監視サービス毎に操作を覚える必要があるといった課題が発生しており、結果、下記のような問題も発生しています。

  • 有事の際の調査のハードルが高い
  • 監視項目の全容の把握が困難
  • 確認したいメトリクスよっては複数サービスを跨ぐ必要があり比較が困難

こうした問題に対し監視サービスの統廃合を予定していますが、その際にSREとして意識すべき指標や観点についてのディスカッションが行われました。

チームに関する課題
SREとして今後より価値を発揮していく上で、現時点では幾つかの課題がある状態です。
一例として、

  • エラーバジェットは設定されているものの、有効活用できていない
  • 開発における責任範囲が曖昧になってしまっている部分があり、開発する上で妨げになっている
  • 開発チームや経営層を含めた、SREの文化が浸透していない

このような普段から感じているチームや組織としての課題を改めて整理しました。
ここで挙げた課題は一朝一夕で解決するものではありませんが、より良い開発を行なっていく上で避けては通れない問題でもありますので、今後、数年をかけて解決したいと考えている課題でもあります。

今回のディスカッションを通して、ココナラのSREチームとしての課題が明確になったように思います。

Workshopを終えてみて

現在、ココナラのSREチームは以前弊社のよしたくが公開した『新生インフラ・SREチームの取り組み』の記事でも紹介している通り、昨年の2月に現在のメンバーに入れ替わったチームです。
現在のSREチームメンバーが入社する前からSLIやSLOなどの指標は設定されており、SREチーム所属以外のエンジニアも含め、会社全体で目標を達成すべく努力してきました。
結果、一定の成果は出ている状況となってはいますが、指標の見直しはあまりされていない状況でもあります。

上記のSLIの件をはじめ、ディスカッションで挙がった課題などのSREとしてやらなければならないこと・やっていきたいことが様々あり、今回のWorkshopを通じて自分達の課題を見直す良い機会になったと考えています。
また、SREの役割についての認識が共通化されたことで、今後、ココナラらしいSREチームを目指す上で大変勉強になりましたので今後の活動に生かしていければと思います。

最後になりましたが、このような貴重な場を設けてくださったGoogle Cloud社の皆様に、この場を借りて感謝申し上げます。


インフラ・SREチームではサービスを安心して利用していただくべく日々活動しています。
まだまだ成長途中のチームですので、一緒にチームを作っていただけるメンバーを募集しています。
ご興味ある方はぜひぜひご応募ください!

SRE求人はこちら

https://open.talentio.com/r/1/c/coconala/pages/49719

ブログの内容への感想、カジュアルにココナラの技術組織の話をしてみたい方はこちら

https://open.talentio.com/r/1/c/coconala/pages/70417
 ※ブログ閲覧者の方限定のカジュアル面談の応募フォームとなります!

エンジニアの募集職種一覧はこちら

https://coconala.co.jp/recruit/engineer

脚注
  1. ココナラではオライリー本を多く取り揃えてます。オライリー本が届いて収納しているときの様子がこちらになります。 ↩︎

Discussion