❄️
Data Engineering Summit セッション聴講メモ
2025/11/6に開催されたData Engineering Summit (by Findy Tools)で聴講したセッションのメモです。
※記載の誤りやセッションの意図をくみ取れてないものがありましたらご了承ください...
Data Engineering Guide 2025
- Data Engineering Guide 2025 #data_summit_findy by @Kazaneya_PR / 20251106
- データエンジニアリング分野全体について、各テクノロジーの進化や普及を踏まえた解説。データ基盤に関わる要素を網羅的にカバーしている。
- 非構造化データを扱う際のリファレンスアーキテクチャについては、データの持ち方が定まっておらず、2025年現在、確立されていない。AI活用に備える上でまずはクラウドストレージに元データを全て置くという、(AWSの提唱する?)データレイクの本来のコンセプトへの回帰が見られる。
- ボリュームもスピード感もすごく、正直ついていくのはなかなか厳しい印象だったが、内容はとても充実しており「Google Cloud で学ぶデータエンジニアリング入門 2025年版」と併せてまた見返したい。メタデータについても3層構造で整理しているのは、ヒントになりそうだった。
- 5000年前/5000年後のデータ基盤というトピックも面白く、データ基盤に関わる壮大な世界観を垣間見たような印象。
小人数で支える日本最大級商業用不動産データベース:アーキテクチャーとチーム戦略
- estie社における、少人数のデータチームで、オフィス、物流、住宅など多岐にわたる不動産データベースを高速・高品質に提供する仕組みを紹介。
- Snowflakeとdbtを軸としたモダンデータスタックをベースに、認知負荷の少ない組織構造、パイプラインの設計思想等を解説。データ基盤の持続可能性を脅かす最大の要因は、古くなった技術やコードだけではなく、エンジニアが感じる「認知的負荷」、つまり精神的な複雑性の管理。
- 認知負荷を下げるということは確かに大事なことだと感じるとともに、紹介されていたSnowflake×dbt(×AWS)の組み合わせでおおよそのユースケースはカバーできるともいえる。Streamlit(データ入力)やSnowflake MLの活用も印象的。
- データチームとして直面する課題に、極力シンプルかつ今の王道といえるパターンを実践している姿なのかと感じた。
ウェルネス向けSaaSにおける1,000万人規模のイベントデータ基盤の現実と理想
- hacomonoデータ基盤の進化
- 1000万人規模のウェルネス向けSaaSのhacomonoが、データ基盤をv0.1からv1.0を経てv2.0へと向かっていく軌跡の紹介。
- エンジニアのノリで始まったというv0.1から、v1.0ではAWS Step Functionsを利用しAuroraなどからエクスポートしS3に集約する形に。しかし運用負荷・転送時間・実行頻度の制約といった課題に直面。
- 現在はメタデータ管理、データメッシュのアプローチ、アジリティの高いパイプラインといったポイントを抑えるv2.0の基盤に向けて取り組みを進めている。
- 「「新」とか「New」とかつくアーキテクチャは必ず負債になる」というのは登壇者の本音というか苦労が垣間見える印象的なワードだった。
サイロ化解消のその先へ。ビジネス/データ、それぞれの視点で語るRevOps
- 収益成長に直結するデータ活用を推進するRevOpsについて、ビジネスとエンジニア双方の視点から議論するパネルディスカッション。
- RevOpsは、部門間のサイロ化解消を超え、共通の定義、プロセス、データ構造を設計することで、収益成長という共通ゴールに向かう仕組み化を目指すアプローチ。
- 最大の価値は、データエンジニアも含めた全関係者が「収益成長」という共通ゴールを共有し、より本質的な議論の場を作れる点にある。個別最適の延長ではなく、共通の定義やデータ構造を設計することで、前提のズレを解消できる。
- データエンジニアリング/データ基盤と(事業)成果の結びつきというのは気にかけていることではあるが、RevOpsという言葉と結びついていなかった。どこかでもう少し深堀したい。
Snowflakeとdbtで加速する「TVCMデータで価値を生む組織」への進化論
- Snowflakeとdbtで加速する 「TVCMデータで価値を生む組織」への進化論
- 運用型テレビCM事業を展開するテレシーが、「データで価値を生む組織」を目指し、データ基盤を継続的に進化させてきた事例紹介。
- テレビCM視聴率データや消費者行動データなどを扱っており、プロダクトで分析結果を提供する定常分析と、分析メンバーによるアドホック分析がある。後者が8割を占めるが、データ基盤の使いにくさがボトルネックになる。
- Snowflakeとdbt Cloudを活用し、分析専用のDWHを分離・構築、リモデリング(非正規化)することで分析しやすい形を実現。分析組織のリソース不足を解消し、年間1000万円以上のコスト削減。dbt utilsやdbt generic testsに加え、dbt constraintsを用いたSnowflake上で制約を定義なども活用。
- Snowflakeを選定した理由として、AWS Redshiftと比較した際のパフォーマンスチューニングやクラスタリング管理といった運用コストの低さが決め手であったという判断。SSoT、リアルタイムなデータ活用パイプライン、データ品質やオーナーシップの明確化が今後の課題。
- Snowflake × dbt という個人的な直近の関心度が最も高い内容であった。また、ここでもRevOpsが出てきた。
生成AI時代の業務改革:DeNAのAI Workspaceと実践的データ基盤
- DeNAが「AIにオールインする」戦略のもと、全従業員の生産性向上を目指す「AI Workspace」の全体像と、その実現に向けたデータ基盤戦略の紹介。全従業員の生産性向上を目的としたIT戦略であり、Google Cloudを軸に、BigQuery/Looker/ArgusなどのデータリソースをAIエージェントプラットフォームで連携させる。
- 全社的なAI戦略という大きな目標に対し、要素技術(内製BIのMCPサーバー)を開発し「作って動かす」ことで、早期にフィードバックを回すアプローチ。さすがというか、全社的にAIを導入するということをスピード感を持って実行していてすごい。
- AI活用とデータ基盤の整備を一体感を持って進めていけたらいいものの現実と理想は程遠く、セマンティックレイヤーやメタデータの整備はもちろんのこと、データガバナンス/認証認可やガードレール設計など考えだしたら際限がない。今後取り組んでいくうえで大きなヒントになりそう。
ポスト生成AI時代における非キラキラ企業のリアルなデータ戦略
- ポスト生成AI時代における非キラキラ企業のリアルなデータ戦略
- 月間3000万ユニークユーザを持つメディア「マイベスト」の未来を見据えたデータ戦略の紹介。
- マイベストはモバイルバッテリーや日焼け止めなどの商品を実際に購入し、定量データに基づいて検証、スコアリングし、ユーザーの選択をサポートするサービス。フェーズとしては、データベース作り→ユーザデータの収集を経て、パーソナライズされた選択体験の提供を実現に向かい始めているフェーズ。
- 現行はGCPを中心としたシンプルなデータ基盤。OneBigTableによる人間・AIの認知負荷の低減、分析ナレッジの集約、メタデータの整備を愚直に進めている。将来のAI活用に備え、粛々とAI-Readyなデータ基盤をめざす。
- 複雑なモデリング・派手な技術に囚われず、データの一元化やメタデータ管理といったことを地道に取り組んでいくことが大事。
Sansan BIが実践するAI on BI とセマンティックレイヤー
- BIダッシュボードを、ビジネスニーズや業務フローのコンテキストを含む「セマンティックレイヤー」として再定義し、AIと組み合わせるパターンを解説。
- データ活用における課題として、BIの形骸化などが挙げられる。それらに対し、AIの力を借りてBIダッシュボードの裏側(データ)を理解した上で、ユーザーの問いに合わせ適切な説明を返す「AIインサイト」機能を独自開発。
- BIダッシュボードを単なるデータの可視化ツールではなく、「どの指標を」「どのような切り口で」「何の目的で」見るかというビジネス上の文脈が凝縮されたもの≒セマンティックレイヤーとみなすという見方は新鮮だった。
- 一方でAI on BIのアプローチは業務効率化に効果的だが、顧客軸と営業軸といった複数のBIを横断する探索には限界があり、AI with BIへの変容が必要であるとのこと。
Discussion