2024年ふりかえり 〜SREとSecurityとEMと時々CorpIT〜
はじめに
今年も一年おつかれさまでした。
この記事は髙塚 (@tk3fftk) の個人的な2024年のおしごとふりかえりです。
今年はSecurityチームを持つようになったり、アウトプットを増やしたり、採用周りの活動が増えたりと「越境」的な活動が多く、それ故の面白さやつらさみたいなものがあったのでざざっと書いてみます。
あと、普段どんなことしてったけ?みたいな記憶がすぐ揮発するので、記録も兼ねています。
SRE
チームでアウトプットをいくつか行っていたのでまずはそれらをペタリ。
- Terraform Modules で trocco の国際化に対応する
- tfmigrate と terraform import/removed/moved block の使い分け
- なにもしてないのにNew Relicのデータ転送量が増えていたときに確認したこと - Speaker Deck
- 【ログ分離】 ログデータを DB に保存してはいけません
- 【ログ分離】 アプリケーションのリファクタまでが改善です
- 仕組み化とドキュメンテーションで CTO の1人 "Always On-Call" 状態をなんとかする - SRE Magazine
- そろそろOn-Callの通知音について考えてみよう (PagerDuty編) - Speaker Deck
- IAM Identity CenterのGoogle Workspace連携における制限をTerraformでいい感じに管理する
- TROCCO/COMETAのモニタリングに適材適所で活用するNew Relic
- 1000 GB 以上のメモリ削減!TROCCO ワークフローの安全なアーキテクチャ移行と共に
- EC2 で稼働していた Redash を段階的に ECS に移行した話
本部内でアウトプット数としては一番多いチームのはずで、業務委託の皆さんふくめ「みんなでアウトプットやっていくぞ!」という雰囲気ができたのがとても良かったです。
来年はブログ記事、LTに加えて長めの登壇なりカンファレンスなどにもチャレンジしていきたい所存。
アウトプットに(まだ)なっていない成果のハイライトとしては以下のような感じ。このあたりはチームのアウトプットネタ帳的なのにも書いているので、どこかの機会で出していきたいと思っています。
- EKS upgrade 後のk8sリソース作成パフォーマンスデグレ問題の調査と対応
- AutoScalingGroup と ClusterAutoscaler と共存するEKS時間スケール
- スケジュール実行コンポーネントの冗長化
- External Secrets 導入
- メンテナンスウィンドウ導入
- BCP/DRの整備
- GitHub Actions Self-Hosted Runner + CodeBuild で EKS に安全にアクセス
- SLI/SLOの見直し
個人的にもOSS作成っぽい活動をトライしてました。「SREで著名な人って高確率でOSSをやってるよな…」という謎なモチベーションと、実際 Terraform のオレオレ Module 移行がつらかったので、自分が欲しかったツールを作ってみていました。
TerraformのLocal Paths Module移行がつらかったのでTerraform版kustomizeのようなものを作ってみた
作ってみたものの、以下の課題があり結局塩漬けになっています。
- 自分で使ってない (これが一番大きいと思っている)
- オレオレmoduleをすでに使ってるいるところから置き換えるほどではない
- CIへの組み込み未検証
自分のジョブディスクリプションとしてはSREが活動の主軸だしメインでやっていきたいところ… なのですが、SRE業務ができずミーティングや他領域の業務で過ぎ去ってしまっていく日々が多くつらかった記憶があります。
メンバーの作業ブロックになるのでレビューだけでもやるぞ、という気持ちでは動いていますが、レビューすらできない日もあったり、実際にレビューとミーティングだけで1日が終わり、自分の作業としては何も進んでいない、といった日もありました。
これを解消するには自分の活動時間を伸ばすか、なにかの業務を止めるかなのですが、まだ答えは出ていないので来年の宿題です。
Security
今年からSecurityチームを立ち上げました。
とはいえ、兼務1人のみの仮想チームであり、自分がセキュリティ領域の専門家でないこともあり「やれることをやれる範囲でやる」をポリシーとして掲げて活動をしていました。
7月より、1人目セキュリティエンジニアの方が入ってきてくださったので、活動主体や舵取りはお任せし、壁打ち相手や技術サポート等のマネジメント的な活動に移ったため、自分がSecurityチームとして手を動かす時間はほぼなくなりました。とはいえ、トータルではSecurityチーム的な活動に費やす時間は増えたのですが、嬉しい悲鳴と思うことにしています。
ハイライトとしては、以下のような活動を行いました。
- 脅威モデリングワークショップへの参加
- 社内でも脅威モデリングワークショップやってみた
- 脆弱性管理、SBOM対応、ラインセンスコンプライアンスチェックの仕組み導入のための情報収集
- Snyk, yamory, 自前構築(GitHub Action + Trivy) の比較
- 結果として yamory を選定して導入、社内の運用フローに組み込み (導入事例記事)
チームとしてはもちろん他にも色々行っていますが、粒度が細かすぎたり公開しにくい(するべきでない)系の話も多いため、またいずれ…
EM
今年のEMとしての変化は8月ごろに「SREの採用担当を明確にアサインされた」ことが大きいです。
もともと求人を更新したり選考を行ったりはしてきたのですが、人事チームとの直接の連携や選考フロー全体の見直しなどが役割として加わりました。
人事チームと取り組みを開始してから、カジュアル面談に来てくださる方も増えました。
予定を検索したところ、今年は18名(うち11名は8月以降)の方とカジュアル面談を行わせていただいたようでした。面談してくださった皆さんありがとうございました!
加えて、他社のカジュアル面談を受けさせていただくということも行っていました。
自分がカジュアル面談を行う側なので参考にしたいという目的と、自分自身のキャリアを考える目的です。
また、「primeNumberを認知してもらい、転職を考えるときに想起してもらう」という目的も含めEM的なアウトプットも行っていました。
- エンジニアリングマネージャーになって読んで良かったドキュメントたち|Hiroki Takatsuka
- 横断PjMを任せられたら意識したいこと|Hiroki Takatsuka
- SRE Career Bar〜注目の3社のこれからのキャリアに迫る〜 - connpass
また、会社としてのアウトプットが色々な媒体で行われていてもったいないな〜と考えていたところに、catnoseさんの チーム個々人のテックブログをRSSで集約するサイトを作った(Next.js)を見かけて、pN Blog Hub と銘打って自社バージョンを作ってみたりしていました。こちらはCloudflare Pagesでホスティングするようにしています。
採用以外のEM的な活動だと、SRE GroupのVision/Missionを作成しました。
チーム内外ともに、SRE Groupがどういうポリシーで活動しているかを明確にしておく目的でした。
実際に、カジュアル面談に来てくださった方ともVision/Missionを元に議論できたりしたので、ある程度は目的を果たせていそうです。
また、個人的に1on1という強制的にコミュニケーションする仕組みを重要視しているので、チームの皆さんと副業で入ってくださってる皆さんとは、週次で1枠30分の1on1を行っています。
水曜日の朝は副業の2名の方とほぼ毎週1on1を行っているのですが、話すネタが尽きず1時間くらい話してしまい、その後の朝会も合わせると3時間以上話しっぱなし、ということもしばしばありました。
横のチームの方とななめ1on1的なことも行っており、トータルで1週間で6枠は1on1を行っていたようです。
CorpIT
CorpIT(あるいは情シス)領域の業務を直接的に行うことはないのですが、SRE/Securityチームとして、CorpITチームと連携することがだんだん増えてきている印象です。(と言いつつ最近はSecurityチームのメンバーが主体的に関わってくれているのですが…)
ざっくりと、認証周りの取得に向けた動きや、社内SaaS利用の改善やログ集約、全般的な壁打ち、セキュリティチェックシートのエスカレーションなどで連携しています。
この連携領域に関しては 組織の信頼性を高める 〜SRE/情シス/セキュリティの領域を超えて〜 がすごく良いというか刺さるイベントでした。この3領域を越境して仕事してる方は一度登壇資料に目を通してみるといいかもしれません。
その他活動
現職では出張とかないだろうな〜と思っていたら、突然のインド出張に指名されました。
海外リージョン構築に関して、要件のすり合わせから設計、構築まで担当したことが評価されたのでしょうか。目的としてはAWS Summit Bengaluruへエンジニアとして参加することでしたが「OOさん(一緒にいったSWE)は他にもXXをするので、tktkさんも何か他にやること見つけてください」とCTOからの無茶振りお達しがありました。
会社としてかつイベント等で関わりのあるFindyさんのツテをたどり、Findyのグローバル展開のためインドに移住されているCFOの河島さんと現地でディスカッションさせていただきました。大変刺激になると同時に、何もかもが日本と違うという感覚を少しでもインストールすべく、CXOがインドに来るべきや〜と思った記憶があります。
他には、ミーティングガイドラインを社内で公式化していただきました。
公式化までの道のりは、以下のnoteにまとめています。
エンジニアだからこそ作れた、ミーティングガイドライン策定までの道のり|Hiroki Takatsuka
半分業務外の活動としてはマインドフルネス体験会を開催していました。
むかしヤフーで社内開催されていたメタ認知トレーニングのmini版を目指して開催しました。
全7回予定で、4回目まで完了しています。オフィスの工事で開催場所がなくなったので中断していましたが、2025年1月から再開予定です。でも芝生エリアなくなっちゃってたなぁ〜
マインドフルネス体験会については、2回目までの様子を元に、広報の方に記事にしていただいたので、よければ読んでみてください。
オフィスでもできる! 心が整う“心の筋トレ”マインドフルネス体験会をエンジニア主導で開催しました|株式会社primeNumber
データエンジニアリングSaaSの会社にいるのでデータエンジニアリングの知見も身につけたい!という気持ちで去年はGoogle CloudのProfessional Data Engineerを取ったりしてましたが、今年は社内で開催されていたデータエンジニアリングの基礎の輪読会に参加しました。
来年はどうしていくのか
力尽きたので箇条書きで…
- SRE
- ちゃんとSREをやりたい
- 業務に忙殺されて、目標に立てたものをやるだけになっていないか?
- SREをはじめようはとても良くて、その取っ掛かりになるかも、と思っている
- ちゃんとSREをやりたい
- Security
- 知見を持ってる人が入ってきてくれたので、せっかくなのでもっと色々吸収したい
- TROCCO x Security のユースケースが意外とありそうなので、事例として出せると面白そう
- 全般
- コントローラブルなところに自分のリソースをかける
- 自分でコントロールできない領域に首を突っ込んで、誰かに物事を動かしてもらえる力も自分で動かす馬力もない
- 長くいて知ってるだけなことと自分の能力と勘違いしない
- 現職は副業期間を入れると3年超えたので、比較的かなり古株
- 昔からいて経緯を知ってるからわかる、ということが増えてきた
- 色々うまくいかなくても自分だけは自分の味方でいてあげようというお約束
- コントローラブルなところに自分のリソースをかける
Discussion