SRE is not dead
SRE NEXT
今年8月3日(土)、SRE NEXT 2024 にて登壇しました。
私が約4年半かかわった、OPENLOGIでのSRE、信頼性との向き合い方
そしてこれから取り組んでいきたいことを凝縮してお話しました。
登壇の評判もおおむね好評で、スポンサーブースの企画も想像以上に来場者の方に刺さり
ここをきっかけに、OPENLOGIに共感してくれるSREの方に届くといいなぁ、と思っていました。
after SRE NEXT
SRE NEXTの登壇から約5ヶ月。
登壇の際には、SREチームの今後の課題として、以下のようなものを挙げていました。
https://speakerdeck.com/m_norii/sre-working-in-the-large-infrastructure-industry?slide=58
この記事で、この登壇からのUPDATEとして、これができました、あれができました、と言えればよかったのですが・・・
実はあの登壇からあまり前進できていない、というのが実情です。
メンバーの退職が発生し、日々の運用・差し込みタスクへの対応割合いが相対的に高くなり、SREチームの横断的課題解決のためのアクションアイテムに対してリソースが足りていませんでした。
社員の退職自体は、どの会社でも一定起きることですし
組織としても個人としても反省すべき部分もあったなと感じています。
私は9月からSREチームのリーダーとなったのですが
現実として、この状況を受け止めた上で、ではこのあとどうする?を考える必要がありました。
方針策定
OPENLOGIは期初が10月始まりのため、10月からのSREチームとしての方針を早急に決める必要がありました。
サービスとして、SREチームがやるべき課題は山積している。
しかし、人が減るためリソースは限られている。
そこで自分が最初に定めたことは やらないことを決める ことでした。
どんなに理想を掲げても、現実問題、無い袖は振れない。これに尽きます。
なので、ほんとに最小限、どんなにリソースが少なくても、これだけはやらないとまずい、ということだけを残し、他の課題は優先順位を下げ、体制立て直してから再度取り組むことにしました。
やらないことを決めるにあたって特に心苦しかったのは、Aurora2から3へのアップデートプロジェクトです。
今年2月に RDS for MySQL(5.7)からAurora2へのリプレイスを済ませ
次はいよいよバージョンアップだ、ということで、4月から準備を進めていたのですが
この状況になってしまったことで、人員調整がつかず、断腸の思いでプロジェクトをいったん止める決断をしました。
Aurora2は 2024年10月末でAWSの標準サポート期間がおわり
11月からは延長サポート期間に入ります。
以降、2027年2月の延長サポート終了まで、利用自体はできますが、一定の追加料金がかかります。
本来は延長サポートに入る前に移行したかったのですが
逆に言うと(追加コストさえ許容できるなら)2027年2月まで猶予はあるので
社内ステークホルダーにも説明の上、受け入れていただきました。
また、SREとしての日々の運用タスク(アラートの初動対応など)については
他チームと共同で行うことにしました。
引き受けていただいたチームとしては、少し負荷が増えることになりますが
メンバーが減ったSREチームの負荷軽減を考慮していただきました。
(これもあくまで一時的なもので、SREチームの体制を立て直した際にはもとに戻す予定です)
採用!採用!採用!
そして、これだけはやらないとまずい ことの筆頭として挙げたのが、採用でした。
とにかく一緒に働く仲間を増やさない限り、未来は苦しくなるばかり。
募集要項の内容の見直しをかけ
エンジニアスカウトにかける時間を多く割き
カジュアル面談、選考、アトラクト活動と、この5ヶ月集中して挑みました。
カジュアル面談では、今までは人事の方やVPoEに任せていたのですが
この段階から、SREとして私が入り、候補者に具体的な業務イメージをもってもらうように努めました。
アトラクト面談や会食にも積極的に関わるように行動を変えていきました。
反転攻勢へ
そして、5ヶ月間集中したことが実り、2025年、あらたなSREメンバーを迎えることになりました🎉
もちろん、これから新たなメンバーが力を発揮できるようにするため
オンボーディングに力をいれる必要があり、現在進行系で整備を進めています。
ということで、消滅の危機?だった、SREチームは
2025年、幸先よくリスタートを切れそうなところまできました。
そして、先に述べたAurora3のプロジェクトはじめ
OPENLOGIのSRE課題に再度取り組む体制になりつつあることに喜びを感じつつも
まだまだ、もっと速度感をあげたく、
よりよい未来をつくるため、SREメンバーを求めています!
ぜひ興味をもったかたは、以下リンクを参考にしていただけると嬉しいです。
まとめ
SRE NEXT登壇後から今日までを振り返りました。
キーになったのは、序盤にしっかり現状を受け止め、方針を決め、
「(今は)やらないことを決め」、「周囲に宣言する」 ことだったかなと思います。
とかく理想を追い求めると、あれもこれも・・・となって
結局どれも中途半端、みたいになりがちなので
現状分析と現状に則したBetter Solutionを定め
一度決めたら徹底してやりきる
ちょっと精神論にはなってしまいますが、この5ヶ月それで走りきれたことは良かったなと思っています。
蛇足
「SRE is not dead」このタイトルは、Mr.Childrenの楽曲「ロックンロールは生きている」からインスパイアされました。
間奏中に「Rock'n'roll is not dead」というセリフが入るんですよね。
めちゃくちゃカッコいい、ライブ映えする曲です。
(Youtubeの埋め込み)
ロックンロールは生きている 君の中に
未知なる可能性を探っている
Discussion