みんなの考えた最強のデータ基盤アーキテクチャ第5回オールスター大集合スペシャル!! 参加ログ
what
9/24(水)に開催された「みんなの考えた最強のデータ基盤アーキテクチャ第5回〜オールスター大集合スペシャル!!」の参加ログです。
今回が初参加&初現地という完全初見でドキドキの中いってきました。
イベント概要
datatech-jpというデータエンジニアのコミュニティで集ったデータエンジニアが、それぞれ考える最強のデータ基盤アーキテクチャを紹介し合うというイベントです。
過去に4回開催されており、5回目となる今回は過去登壇した方々が「今のデータ基盤」を語るというものでした。
オンラインとオフライン両方のハイブリッド開催で、現地も多くの人が訪れていました。
※datatech-jpについては以下の紹介ページをご覧ください。
早速ですが発表内容を書いていきます。
全体的にざっくりとした記載のため、気になる方はYoutubeのアーカイブもしくは各登壇者の方のスライドをご覧ください。
(connpass等でわかるものについてはスライドのリンクを貼っています)
kubellのデータ基盤開発の最新状況とAIの活用の実践について
一人目はkubellのみっつさん。
kubellに置いてのデータ分析基盤の現状や、2026年に向けたAI活用について語られました。
Kubellデータ分析の状況
- Snowflakeを中心としたデータ分析基盤
- 現在は並列型の体制
- 今までは直列型の体制(利用者とデータの間に立って対応)だったが、ボトルネックも発生していた
- 利用現場が主体で開発を進めることができる体制に変更
- 2024年は前年比2,5倍の機能追加+aを実現
- データ基盤を少人数で立ち上げたりなど
- 2025年はAI開発を導入し始め
- 8月前に去年を超える機能追加を実現できた
- しかし、これまでの取り組みで成長率を続けるのは難しい…
2026に向けたAI活用の方向性について
- 2025年を振り返ると、特定の誰かorデータエンジニア等に依存しない「属人性排除」の取り組みだった
- これからは属人性排除から「人ボトルネックの排除」へ
- Snowflakeの強力なAI機能に期待
- Snowflake MCP サーバー
- 一方引き続き残りそうな課題(どうしても人が介在する必要性が高い)
- レビューの人依存
- 機能廃止の対応で人依存
- 技術負債の対応で人依存
- 4象限での役割分担
- AIに任せる部分と人が注力
- 属人性の排除+人ボトルネック排除
- 人ボトルネックの排除に向かうにしても、その壁はたくさんある
data vaultを用いたマルチプロダクトのためのデータ基盤開発
2人目はStailerのtenajimaさん。
data valutの生の声を届けに、現在の構築や「なぜdata vaultを採用したのか?」そして今後の手棒について語っていました。
なぜdata vaultを採用したのか?
- なぜdata vaultを採用したのか
- 複数のデータソースがカラム履歴管理を一定のルールに従って管理できる
- 全件更新でも差分更新でも統一的な考え方でデータを管理できる
- あたしく連携されるデータがでてきた場合に既存のデータに影響なくデータを追加できる
- チームとしてdata vault運用してきた経験がある
- 思想が共通している
運用時に意識していること
- できるだけ実体化しない
- 実体化するものが増えるとオペレーションが増えうる
- なるべくオペレーションミスを減らせるようにしたい
- 実行の再現性を担保する
- パートナーからもらったデータが日別で残る設計なので、そこから履歴を復元できるようにしている
- 考慮漏れがあった際にも履歴をやり直せることが、運用・精神衛生上とても大切
今後の展望
- data vaultとLLMは相性が良いので、raw vaultをLLMに生成させたりといった利用をしていきたい
- パートナーの個別性吸収はLLMにお願いしたい
- パートナーが増えてもデータパイプラインの実装がスケールするにはとても重要な要素になる
- とはいえ、人間がモデリングすることはまだまだたくさんある…
AIファーストな最強データ基盤を“Databricksに全部のせ”してみた
3人目はアドインテの髙松 築さん。
「そもそも最強のデータ基盤とは?」から始まり、高松サンの考える最強のデータ基盤の話や、「データエンジニアがアプリケーションエンジニアに近づいているのではないか?」という話をされていました。
そもそも最強なデータ基盤とは?
「最強」に求められること
- 速い学習ループ
- 開放と統制の両立
- ゼロコピーで一体運用
- 統合コントロールプレーン:
- データだけではなく、パイプライン構築、Vector、インデックスも作らなければいけない
- アプリケーションも作らなければいけない
- 実はデータエンジニアがアプリケーションエンジニアに近づいているのでは?
- 環境の分離と無限のスケーラビリティ
- 権限と監査
データ階層と環境分離
最強のデータ基盤として最も重要なこと。
- 次の2つに環境を分ける
- 基板データ層: 基板データ→実データを置く、クレンジングを行う場所
- 作業ゾーン: プロジェクトや部署ごとで作業をする環境
- アドインテさんではDatabricksを採用
- プロジェクト・リソース別に管理
- 実体はストレージ、分析はサーバーレスで動かす
AI,アプリケーションまで見据えたデータ設計
- 多層 * 高性能 * 統一アクセス
- データ
- 外部連携
- 実行
- AI
- アプリ
- 統合
- データとアプリケーションをいかに近づけてあげるか
- データ屋さんが語るアプリケーションの世界線へ
VibeDataEngineering
- コード書くの辛い(本音)
- コード書くのはAIに任せる。人間に任せるより良い
- Agent(Copilot等)に任せる
- APIを渡してAI Agent用のワークスペースを作る
- Agent用のアカウントを発行する
RevOps実践で学んだ 俺が最強のデータ基盤になることの重要性
4人目はCARTA ZEROのぺいさん。
連続の会社統合によって業務やデータが把握しきれなくなった状況をRevOpsを導入して一つにしていくための取り組み、そして大変さについて話をされていました。
※ ReVOps:企業の収益最大化を目指し、営業、マーケティング、カスタマーサポートといった部門を統合する経営戦略の1つ
言うは易く行うは難し
- RevOpsで会社を一つにしていく
- 会社に便利な指標を作ってそれを社員がいい感じに使う
- と言うのは簡単だけれど、実際やろうとすると難しい
- 苦労したこと
- 何をやれば効くのか、わからない
- 書籍はあるし読めばわかる、でも実行するのは難しい
- RevOpsで全体最適していくにも、何を最適化すればいいのかわからない
- まずはペインが強いOpsから取り組んだ
- ペインが強いOpsから取り組んでわかったこと
- Opsがカオス = データがカオス
- Opsとデータは表裏一体
- 今あるデータだけ触ってRevOpsの構築は難しい
- 良いデータを集めるために、まず良いOpsを作る
- XOpsをする
- 眼の前のXOpsを整理してもRevOpsへの道程は遠い。でも近道もない
- 仕事はつながっている、点だけで成立している仕事はない
- 点と向き合う
- 点と点をつなげて、線にしていく
- 要するにレベニュープロセスの可視化
XOpsエンジニアリングで大事なこと
- 実際にOpsをやってみる
- やってみないとわからないことがたくさんある
- GENBAに飛び込み、一時データにアクセスしよう(原文ママ)
- やってみてちゃんとイライラする。ここに伸びしろがある
- エンジニアはイライラしやすい→エンジニアリングに移しやすい
- やってみてちゃんとイライラする。ここに伸びしろがある
- こうあるべき、を自分で語れるようにする
- 理想論だけでなく実行に移す
- 自分がそのOpsに詳しい最強の人間データ基盤を目指す
しかし…
- 一人では認知に限界がある
- CARTA ZEROでは全社横断のデータ戦略局を作り、組織で取り組む体制に
- 一人より圧倒的に仕事が進む
最強のデータ基盤をLT2回分話す
5人目。トリを飾るのはちゅらでーたの菱沼 雄太さん。
「10分もあればLT2本喋れてお得ですね」という考えのもと、本当に2本LTをしていました。
91枚のスライド資料を10分で捌き切る。すごい。そして速い。
内容としてはデータ基盤の歴史の振り返りとこれからの事。
DBが誕生したあとの1980年代に遡り、どうやって今の形へと変わっていったのかが書かれていました。
データ基盤にも第一世代や第二世代といった時代があったのは知らなかったので、これは驚きでした。
これからの話は、「分散データ基盤が特別なものではなくなった今、どんなアーキテクチャが最強なのか」について。
それは…ICEBERG。
でも、実際に使おうとするのは、今はまだとてもTAIHEN。
(2年くらい経てば楽になるかも…?)
頑張ってやるしかない。
そんなお話でした。
あまりにも速くメモが起きれなかったため、これはぜひスライドやアーカイブ動画を見ていただければなと思います。
ということで、5名の方々による盛りだくさんのLTでした!
第2部~登壇メンバー+MCによるパネルディスカッション!~
今回のイベントは2部構成で、1部はLT。2部は事前にXで募集した質問をテーマにしたディスカッションでした。
「生成AIの登場によって自身の設計思想に変化はないか?」
「自分の達の次の世代も最強にするために、取り組んでいる育成手法や課題は?」
といったテーマについて登壇者の方々が自分の持つ考えを語っていました。
これもかなりの盛り上がりで、30分近くをあっという間に過ぎ、それでもまだ足りないという程でした。
聞いている側もとても学びや面白さを感じる内容で、「もう少し話を聞いてみたい」と思うものでした!
参加してみて
始めて参加した「みん強」でしたが、登壇者・参加者の方々皆さん明るく優しい方々で終始楽しみながら参加することができました。
ここまで良い意味で笑いや歓声が起きる技術勉強会もそんなにないのでは…?と思うほどでした。
次回開催も旣に決定していて、11月にSnowflakeメインのイベントがあるそうです。
しかもなんとSnowVillageさんとコラボとのことで、会場は大盛りあがりでした。
みん強イベントまた参加してみたいと思います!
Discussion