SREへの挑戦: 苦労していること5選
はじめに
私は現在、SRE(Site Reliability Engineering)の導入に取り組んでおり、日々様々な課題に直面しています。これらはGMOメディア特有の課題かもしれませんが、同じようにSREを始めようとしている方々に少しでも参考になればと思い、この経験を共有します。
1. どこから始めて良いかわからない
SREの導入を始めたものの、どのように進めれば良いのか手探りの状態です。組織にはSREのエキスパートが不在で、クリティカルユーザージャーニーの作成やトイルの洗い出しから手を付けていますが、どれがベストプラクティスなのか手応えがありません。現在は、SREの基礎を学ぶために専門書やAWSの担当者の助力を得ながら進行しています。
2. SREチームと開発チームの時間割の乖離
SREと開発チームの間で、SRE作業に割く時間の割合が大きく異なっています。インフラチームをSREチームに再編するトップダウンの指示はありましたが、開発チームにはその意図が十分伝わっておらず、組織全体としての目標や方針が不明瞭です。開発チームは事業部と連携し、事業の目的に向けて動くため、SREへの取り組みに時間を割くのが難しい状況です。ただ、業務時間の20%などの割合でSRE作業に充てられるように調整できればと考えています。この点については、開発部門のトップに引き続きコミュニケーションを図っていきたいと思います。
3. New Relicの扱いの難しさ
SLO/SLIの設定のためにNew Relicを導入しましたが、その多機能さに圧倒されています。データの通信量が多く、設定の最適化が必要ですが、どこを調整するべきか模索中です。今は最低限の機能から利用していますが、まだ十分に使いこなせていません。
4. コスト最適化ではなくコストダウンに終始
SREでは本来、コストとリスクのバランスを考慮した最適化を目指すべきですが、現状では単なるコスト削減に終始しています。適切なアーキテクチャやリソースの活用が十分考慮されていないため、本来のSRE活動とはかけ離れてしまっています。利益確保の重要性は理解していますが、長期的な視点での最適化に向けた議論が必要だと思います。
5. トイル削減の焦点の不在
トイル削減を進める中で、対象サービスの数が多すぎて焦点が定まらなくなっています。特定のサービスの運用に絞ってトイルを分析すべきだったかもしれませんが、現状ではSRE(インフラ)チーム全体の作業を洗い出し自動化を進める中で、トイルの影響度や優先順位が曖昧になっています。特化したアプローチが必要だと感じています。
まとめ
これらの課題に直面しながらも、一歩ずつ解決策を模索しながら進んでいきたいと考えています。経験を共有し、他の方々の知識を参考にしつつ、より良いSREチームの実現を目指します。現在、SREをはじめようを読んでいますが、他におすすめのSRE関連書籍がありましたら教えていただけると嬉しいです。
Discussion