オープンセミナー2024@広島 XRE エンジニアを支える組織 参加記
オープンセミナーは2003年から続く中四国地域で開催されているIT技術者向けのイベントです。広島のイベントとしてはかなり大きな規模だと思います。今回は50人ほどの参加者が集まりました。
毎年テーマが変わっていて、今年は「XRE」ということでSREなどの何らかの形で信頼性向上に関わっていたり、エンジニアを支えるチームだったりに所属する方々が登壇しました。
以下資料と簡単なメモを書きます。
信頼性を高めるって結局何だったの? / tomo さん
XREの種類として代表的なSRE以外にも色々あるということが紹介されました。僕はNREを知らなかったです。
XREの種類 - tomoさんのスライドより
続いて「信頼性」とは何か、個の信頼性を組織の信頼性に広げていくにはという話から、「目に見えない、共通認識しづらいものを信頼性向上という形で共通認識できるようにして、課題として明確にした」という話がされました。
個人的な感想としては、この後のお話につながる部分も多かったので最初に聞けてよかったと思いました。また、「信頼性」というものが経営層に理解してもらいにくい、という話を色々聞くのは、まだ「信頼性」という名前がついてから日が浅く、共通認識になりきれていないからなのかなと思いました。このあたりは発表中のハイプ・サイクルでまだ安定期が先にあるのとも関連してそうです。
新しくできたPlatform Engineeringに関わるチームを紹介する【サイボウズ株式会社】 / 谷 昌典
URL: https://www.docswell.com/s/uta8a/5QR9RN-2024-11-09-platform-engineering
これは僕の発表です。5分でPlatform Engineeringの話と、新しくできたPDXチームの話と、会社紹介をしました。
発表で「Platform Engineeringをご存知の方!」って言ったら半分以上手が上がってビビりました。思ったより認知されてる!
あとは手書きの図に反応されている方が多くて手書きで書いた甲斐があったなと思いました。
手書きの図 - 谷のスライドより
懇親会等で「PDXチームと生産性向上チームはどんな違いがあるんですか?」とか、「規模が大きいから似たような組織ができてたりするんですか?」という質問を頂けて嬉しかったです。
(あと、zennでdocswell埋め込みができるやつ、Productivity Weeklyで記事書いて知識として知ってたけどこんなに早く使う時が来るとは思いませんでした。便利だ...)
野良SREが考えるひとりめの仕事、透明性の作り方 / 菅原政行 さん
URL: https://www.docswell.com/s/plageoj/57RJG6-wild-sre
日本4人、ベトナム25人規模で開発をしている会社で、新卒で入ってから「SRE」を名乗って色々取り組んでいく中で得られた知見を共有されていました。いわゆる「一人目SRE」ですね。
内容としては、以下の4つのトピックを紹介されていました。
- よく観察する
- 規則と慣習を組み合わせる
- トップダウンで動くべきとき
- 周りを巻き込んで発信する
個人的に特にわかりが深いと感じたのは次のスライドです。
まずは歴史と現在を知り、観察から始める - 菅原さんのスライドより
一人、それも新参者だと色々気付いてもなかなか具体的なアクションには結びつきにくい。そこでやはり歴史を知るとか、細かい部分から喜ばれる小さな改善を積み重ねていくというのは個の信頼を勝ち取る上で大事だなと思いました。え、発表者は社会人2年目ってマジですか?2周目の間違いでは...
規約と慣習の関係 - 菅原さんのスライドより
このスライドも良かったですね。確かに言われてみるとこんなライフサイクルしてるな〜と思い、うまい言語化だなと感じました。
コードに魂を吹き込め!GitHubで作る夢の開発環境【ウルシステムズ株式会社】 / 今野 結太 さん
(資料は見つけられなかったです)
めっちゃ夢のある開発環境の話でした。内容的にはdevcontainerやGitHub Projectsなどを使うようにしたというものですが、ガラリと近代的なものにチャレンジして得られるものもあると思うのでとても面白かったです。
こちらの方も新卒2年目ということで、僕も2年目なので負けないよう頑張りたいと思いました。めちゃ刺激になりました。
SREの組織類型に応じたリーダーシップの考察 / 菱田健太@トポタル さん
URL: https://speakerdeck.com/kenta_hi/srenozu-zhi-lei-xing-niying-zita-ridasitupunokao-cha
SREを軸にしたスタートアップ トポタルから菱田さんの発表です。
もう一度読むSREというPodcastをもう100回近く続けておられるらしく、いくつか気になるところを聞いてみようと思いました。
発表内容はSREを組織の形態に応じて分類し、そこにリーダーシップ理論を絡めて考えてみるという内容でした。
他の組織を動かすのが難しい...というSREの悩みから、他の人との関わりを重視する条件適合理論を軸にして、発達度をSREの形態に当てはめていました。
SL理論を組織の信頼性のマインドセットで置き換える - 菱田さんのスライドより
個人的にこういった成熟度による分類は、Platform Engineering文脈ではCNCF Platform whitepaperでもMaturity modelという名前で登場するので、菱田さんのオリジナルだけれども説得力のある話だなと思いながら聞いていました。結局エンジニアリングの対象が人なら、元々人を対象に研究が進んでいる分野と似通ったところが出てくるのかもしれないですね。
また、その後のProduct SRE, Embedded SRE, SRE Center of Practiceの分類の話も面白かったです。
SREの分類 - 菱田さんのスライドより
質疑応答で質問したのですが、この構造はSRE Center of Practiceがゴールというわけではなく、行ったり来たりするものだそうです。実際僕のチームはSREではないですがPlatformだけではうまくいかないなと考えているところがあって悩んでいたので、Product SREやEmbedded SREの形は参考にしていきたいと思いました。
プロダクトと開発を支えるSREの力 / 宇田 誠之朗 さん
(資料は見つけられなかったです)
SRE本に書いてあるようなSREの教科書的な基本を分かりやすく解説された後に、実際に会社の方ではこんな感じでSRE組織を進めていますという話がされていました。
宇田さんはSRE2年目ということで、2にちなんだ感じのネタが当日多くて面白かったです。
個人的な感想としては、SREとして取り組む施策の最初の方からコンプライアンスやインシデント対応が組み込まれていて面白いと感じました。例えば、アプリケーション側からSREに寄っていくとどうしても可観測性とかのアプリにフィードバックとしてかかる部分が優先になりがちなのではないか?と思っていて、堅牢なシステムを支えるための足回りになるセキュリティに近い話が最初から固められているのは、インフラ出身のSREならではなのかなあと感じました。
また、スキルノートという自社のスキル可視化ツールを用いてSREのロードマップ的なものを整備されているのもいいなと思いました。やっぱ自社サービスを使ってドッグフーディング的なことをしているのいいですよね。
開発組織を横断して支える生産性向上チームの取り組み / 谷 昌典
URL: https://www.docswell.com/s/uta8a/ZJ4841-2024-11-09-engineering-productivity
これも僕の発表です。
生産性向上チームの歴史を踏まえて、生産性やエンジニアを支えるチームは必要かという話を考えるヒントを提供できるよう頑張って発表しました。
会場の反応としては、
- 本日2回目の発表です。1ターンに2回行動!ボスキャラかな
- 生産性向上チームって目的が分かりやすくて良いですね
- 不意にサイボウズLiveを思い出しました(おせわになりました)
- キントーンといえばきとみちゃん!
- Four Keys初めて聞いた
- 一人目の人がすごすぎて気になる
- 使い捨てのつもりで作ったものは長く使われ、長く使うつもりで作ったら短命で...
- 10年近い実績があるだけじゃなく、生産性向上チームのやり方自体も更新されてる
など、色々な反応が頂けてとても嬉しかったです。
終わった後も多くの人に話しかけていただいて、生産性向上チームの話や質問してくださった方のお話を聞いたりと楽しい時間が過ごせました。
特に「改善していく」という姿勢が伝わったのは良かったなと思いました。改善し続けるというところが僕が一番生産性向上チームの中で好きなところなので、うまく伝えられていれば嬉しいです。
リアル登壇っていいですね。
エンジニアのための情報共有コミュニティサービスZennの開発チームを支える自動化の仕組み / dyoshikawa さん
Zennの開発チームを支える様々な自動化の取り組みについて解説されていました。個人的にめっちゃ技術っぽい話が聞けて良かったです。
会場でZennで記事を読んだり書いたりしたことがある人は8割くらい手を挙げていて、Zennは認知されているなあと感じました。
発表内容はまず自動化の抽象的な観点からの有効性の話がされました。特に費用対効果が高い部分を発見し、繰り返すことが確定してから自動化を検討するという対象とタイミングの話はなるほど〜と思いました。いい言語化だ...
対象とタイミングが自動化の選定ポイント - dyoshikawa さんのスライドより
また、個人的にCIとCDを分離しているところもいいなと思いました。割とGitHub Actionsに寄せるところも多いですが、やっぱり分けておいた方がいいことも多いので、デプロイの事例が紹介されるのは判断のための例が増えてとても嬉しいです。
また、Geminiを使ってスパム検出システムを構築したところなど、新しい技術を使って費用対効果の高い自動化をされていて、CI/CDとかのオーソドックスなところだけではない新鮮さがあって面白かったです。
また、AIに対する考え方とか、自動化していくためにHRTの精神が大切といったマインドセットの話もあって良かったです。どうしても自動化はhowに寄っていってしまいがちなので、こういったところも大切にしたいなと改めて思いました。
エンジニアとサブスレッド【株式会社サブスレッド】 / 小西 啓太 さん
(資料は見つけられなかったです)
サブレのサブスレッドさん、覚えやすくていいですね。
社内勉強会の話が面白かったです。長く続いているのもすごいし、テーマもエンジニアだけでなく投資とか、日本語とか、色々な内容があってバラエティに富んでいていいなと思いました。
まさにサブスレッドさんの「多様性を可能性に」って感じでいい発表でした。
データの信頼性を支える仕組みと技術 / chanyou さん
URL: https://speakerdeck.com/chanyou0311/detanoxin-lai-xing-wozhi-erushi-zu-mitoji-shu
chanyouさんの発表はタイミーのデータ基盤の歴史、dbtを実際に動かして説明、そしてデータ基盤における信頼性の定義、それを支える仕組みといったようにデータ基盤の技術や指標としているものが分かる発表でした。
3段階のデータ基盤の流れ - chanyouさんのスライドより
まず僕はデータ基盤の構成に関する知識がなく、アーキテクチャ図を見ても「ここはBigQueryだ!」くらいしか分からなかったので、Forward ETL, Aggregate, 活用/Reverse ETLというデータを抽出して加工して戻したり別の場所に置くというざっくりとした構造を示して下さって良かったなと思いました。
そしてdbtの説明も実際動かしながらだったので理解できました。dbtはAggregateのパート(加工)で役立つデータ変換ツールで、ポイントとしてはSQLとYAMLでコードとして変換を管理できるところにあるように感じました。
当日使用されたデモのRepository:
その後データの信頼性の話に移りました。タイミーでは完全性、適時性、一意性、一貫性の4つの特性を指標としているそうです。完全性(データ欠損がない)とかはKaggleを試しにやった時にデータクレンジングみたいな話を聞いてなんとなく想像がつきましたが、適時性(必要な時にデータがすぐ参照できるか)は面白いなと思いました。
活用/Reverse ETLが出力ならBigQueryを裏で動かしてリアルタイムにデータをspreadsheetに突っ込むみたいなことが必要そうで、どうしても変換を事前にやっておく感じになると課金が爆発しそうです。必要になった時にfetchするみたいな感じなのかな。
いずれにせよリアルタイム性は意思決定の正確さを支える上で重要で、結構難しい指標だと思うのでエンジニアリングの腕の見せ所な感じがしました。
会場では信頼性を守るためにdbtの機能を使っている話がされました。
dbtの機能を使って信頼性を守る - chanyouさんのスライドより
最後にこれからの話としてデータメッシュの話がされていました。
TBD【ビットリバー株式会社】 / 安藤 光昭 さん
(資料は見つけられなかったです)
TBDと書いてあったのですが、マジでスライドのタイトルがTBDで面白かったです。
内容としては「TBD」を元にBe Lazyとの違いは何か、結局やるかやらないかだ、という深い話になっていて、TBDからここまで広げられるのかと驚きました。
真面目な発表が続く中でLT全振りみたいな感じでとても面白かったです。
"君は見ているが観察していない" で考えるインシデントマネジメント / Wataru Tsuda / gr1m0h さん
URL: https://speakerdeck.com/grimoh/jun-hajian-teirugaguan-cha-siteinai-dekao-eruinsidentomanezimento
ぐりもおさんのインシデントマネジメントに関する発表でした。
内容としては、表面的な事実をただ見るワトソンと深く観察しているホームズの違いからインシデントマネジメントにおいて観察眼を身につけるにはどうしたらいいかを考えるというもので、個人的にこの類似は確かに〜となって面白かったです。
特に最初のホームズの言葉は、推理小説の話なのに「あれ?障害調査の時のベテランの動きみたいなこと言ってるな」と思って面白かったです。多分構造として「対象が謎であるが対象は証拠を残して動く」というところで障害調査も探偵の推理も似ているのかもしれません。残された証拠を観察することで対象にたどり着ける。
観察についての具体的な説明があった後に観察眼を代替する工夫が共有されました。多角的にデータを確認するにはそもそもオブザーバビリティが必要とか、ランブックを導入して属人的で場当たり的なインシデント対応を辞められるとか、個人的には耳が痛い話ばかりでした。これを参考に月曜から対応していきたい...
その後インシデントマネジメントに役立つ具体的なツールの話があった後にポストモーテムやインシデント対応訓練の話がありました。インシデント対応訓練はいきなりやるのは難しいけど、知識の共有としてインシデント対応手順の読み合わせくらいから進めてみたいですね。
懇親会でインシデント対応訓練の話をしたところ、「これまでの(1週間、1ヶ月とかで起こった)インシデント対応履歴をみんなで眺める」という方法を教えていただきました。確かに共通のviewを見て知識を共有するみたいなのはハードルが低そうで、これやりたいなと思いました。
最後に
オープンセミナー広島楽しかったです!司会もプロフェッショナルだったし、むさしのお弁当も美味しかったし、会場には電源もWiFiもあって最高でした。
運営の方々、登壇者の方々、参加者の方々、ありがとうございました!
Discussion