Open21

Data + AI Summit 2025 のオンラインセッションのメモ

manabianmanabian

概要

Data + AI Summit 2025 のセッションをオンラインでみた際のメモです。現地できいたセッションを含めていません。

manabianmanabian

Data Modeling 101 for Data Lakehouse Demystified

基本情報

概要

本講演では、レイクハウス環境でのデータモデリングを再考し、メダリオンアーキテクチャの各層をどう最適化するかを示した。ブロンズ層はソースを1 対 1で複製しメタデータを付与、シルバー層はドメイン単位に正規化・クレンジングして企業横断の“意味的コア”を形成、ゴールド層はスター型スキーマや OBT など利用目的に応じたビューを提供する。しかし単純なコピー&ペースト実装ではデータ重複やゴールドの乱立が起こりやすい。解決策としてシルバーに Data Vault モデル(ハブ・リンク・サテライト)を導入し、履歴保持主体の Raw Vault とビジネスルール適用の Business Vault を分離。これにより監査性とスケールを確保しつつ、上位層では要件に応じスター型/OBTを柔軟に生成できる。最後に評価→設計→展開を19日で進めるステップを提示し、信頼性と俊敏性を両立させたレイクハウスの構築法を提案した。

manabianmanabian

Cross-Cloud Data Mesh with Delta Sharing and UniForm in Mercedes-Benz

基本情報

概要

このプレゼンテーションでは、Databricksとメルセデス・ベンツが直面したマルチクラウド環境におけるデータ共有の課題と、それらを解決するための革新的なアプローチについて説明されています。メルセデス・ベンツはAWS、Azure、GCPといった複数のクラウドプロバイダーを利用しており、これによりコスト効率と特定のテクノロジーへのアクセスを最適化していますが、クラウド間のデータ転送コスト(エグレスコスト)とデータフォーマットの互換性という大きな問題に直面していました。この課題に対し、彼らはDelta SharingとDelta Deep Cloneを活用してデータのローカルレプリカを作成し、変更されたデータのみを同期することでエグレスコストを劇的に削減し、さらに多様なデータフォーマットに対応できる**データ製品マーケットプレイス(DDX)**を構築しました。このソリューションは、コスト削減、データ互換性、災害復旧能力、そしてデータ共有プロセスの自動化と可視化を実現し、将来的なIcebergサポートの強化にも繋がると述べられています。

manabianmanabian

Measuring User Adoption and KPIs for Data Products Using Databricks

基本情報

概要

このDatabricksの動画では、Kyther Labsの製品責任者であるGrant Stubblefield氏が、データ製品の定義、測定方法、およびDatabricksを活用したデータ品質とユーザー採用の監視方法について詳しく説明しています。データ製品は、実用的な問題解決、発見可能性、信頼性、自己完結性、相互運用性、そしてバージョン管理と所有権といった特徴を持つ、意図的に作成されたデータ資産として定義されます。Stubblefield氏は、ソフトウェア製品とデータ製品のKPI測定の違いを強調し、データ製品においてはクエリパターン、使用頻度、コスト、データの鮮度などが重要であると述べています。また、彼はDatabricksのシステムテーブルや新機能(アノマリーモニタリング、AIエージェント)を使用して、ユーザー行動、データの健全性、および製品の改善点を特定する方法を実演しています。

manabianmanabian

Master Schema Translations in the Era of Open Data Lake

基本情報

概要

この動画は、オープンデータレイク時代におけるスキーマ変換の複雑さと課題に焦点を当てています。異なるシステム間でデータを移動する際に生じるデータ型の不整合、NoSQLデータベースのようなスキーマレスデータの統合、そしてタイムスタンプや巨大な数値といった特定のデータ型を扱う際の困難さが主要な問題として挙げられます。講演者は、これらの問題を解決するために、システム間の直接的な「スパゲッティ」な変換ではなく、包括的な「スーパーセット」型システムを中央に据えた「ハブ&スポーク」モデルの必要性を提唱しています。さらに、データの意味を理解し、AIアプリケーションで活用するために、ネイティブデータ型だけでなく論理的データ型とセマンティックデータ型を維持・伝播することの重要性を強調しています。

所感

  • やっていることに新規性はないが、 DAIS で発表されるような注目テーマであることをいえそう。
manabianmanabian

Introducing Simplified State Tracking in Apache Spark™ Structured Streaming

基本情報

概要

この発表は、Apache Spark™ Structured Streamingにおける状態トラッキングの改善に焦点を当てています。講演者は、特にApache Spark 4.0で導入されたtransformWithStateオペレーターと、そのデバッグやトラブルシューティングに役立つ新しいState Reader APIの変更フィード機能について詳しく説明しています。魚の個体数を監視するという架空のシナリオを通して、ステートフルストリーミングの概念、例えばシャッフルパーティション、オフセット、および 状態ストア(RocksDBに支えられた分散データベース)がどのように機能するかを解説しています。最終的に、State Reader APIの変更フィードが、開発中にステートフルオペレーターのパフォーマンスの非効率性(State Storeへの複数回更新) を特定するのにいかに役立ったかを実証しています。

manabianmanabian

Federated Data Analytics Platform

基本情報

概要

Databricks社は、急成長に伴うデータ分析の課題を解決するため、従来のETLパイプライン構築モデルからフェデレーテッドデータ分析プラットフォームへと移行しました。当初のパイプラインは、マイクロサービスからのログを複雑に結合していましたが、スケーラビリティの欠如、データ鮮度の遅延、信頼性の低さ、そしてメトリクスの精度不足という課題に直面していました。これらの問題を克服するために、Databricksはプラットフォーム志向のアプローチを採用しました。

まず、ログデータに分析コンテキストとして標準化されたジョインキーを付与することで、異なるサービスからのデータを容易に紐付け、ビジネスロジックの複雑性を大幅に削減しました。これにより、メトリクス精度の劇的な向上とコスト削減を実現しました。次に、メトリクスの定義をモジュール化された設定ファイル(YAML)として管理し、製品チームがセルフサービスで新しいメトリクスをオンボーディングできる仕組みを構築しました。これにより、データチームへの依存を減らし、オンボーディング時間を大幅に短縮しました。

結果として、Databricksはたった一人のデータエンジニアで、パイプラインの稼働時間を99.9%に向上させ、コストを90%削減し、メトリクス数を大幅に増加させることに成功しました。この変革は、データチームのボトルネックを解消し、企業全体のデータドリブンな文化を促進する基盤となりました。

manabianmanabian

Iceberg Table Format Adoption and Unified Metadata Catalog Implementation in Lakehouse Platform

基本情報

概要

この資料は、DoorDashがデータ管理において直面していた課題と、それらを解決するためにIcebergテーブルフォーマットと統合メタデータカタログ(特にDatabricksのUnity Catalog)をどのように導入したかを詳述しています。以前はSnowflakeとDatabricksという2つの異なるデータプラットフォームがサイロ化し、データ移動や重複するETLプロセスによる非効率性、コストの増大、遅延が生じていました。彼らの目標は、データを「一度書き込めばどこでも読める(write once, read everywhere)」状態にし、データの一貫性とアクセス性を向上させることでした。最終的に、この「プロジェクト・フュージョン」によって、データ移動の排除、開発速度の向上、コスト削減、データレイテンシーの大幅な短縮といった顕著な成果を達成しました。

manabianmanabian

How Danone Enhanced Global Data Sharing with Delta Sharing

基本情報

概要

このプレゼンテーションでは、Danone社がどのようにしてグローバルなデータ共有プラットフォームを刷新したかについて説明しています。同社は、以前の断片化されたデータランドスケープと非効率性という課題を克服するため、DatabricksのUnified Data Platform、特にUnity Catalogを中心とした新しいアーキテクチャへと移行しました。この新しいシステムは、データの一元管理、ガバナンス、および再利用性を重視しており、地域間および地域内でのデータ共有を簡素化します。特に、データ契約の導入が、データ製品の定義とアクセス管理において重要な役割を果たし、コストとパフォーマンスに基づいた柔軟なデータ共有戦略の選択を可能にしています。

manabianmanabian

Disney's Foundational Medallion: A Journey Into Next-Generation Data Architecture

基本情報

このDatabricksの動画では、Disneyが直面していたデータストリーミングに関する課題、特にデータの一貫性と柔軟性の欠如に焦点を当てています。同社は、異なる部門や買収した企業からの複数のデータソースが持つ重複する属性やキーの管理に苦労していました。この問題に対処するため、Disneyは**「Foundational Medallion(基盤メダリオン)」と呼ばれる新しいデータ層**を開発しました。これは、既存のブロンズ層とシルバー層の間に位置し、一貫したサロゲートキーと次元モデリングシステムを通じて、すべてのデータセットにわたる単一の真実の源泉を提供することを目指しています。この新しいアプローチは、下流のデータ消費者がビジネス問題の解決に集中できるようにし、データ処理のパフォーマンスを向上させ、全体的なコスト削減に貢献しています。

manabianmanabian

Delta Lake and the Data Mesh

基本情報

概要

この発表は、Next DataのプリンシパルエンジニアであるKa Keys氏が、データメッシュの概念と、特にDelta Lakeとの連携について説明するものです。データメッシュは、複雑で大規模な環境において分析データを共有、アクセス、管理するための分散型社会技術的アプローチとして定義されています。このアプローチの中心にあるのは、データプロダクトという考え方であり、これは発見可能、アドレス可能、理解可能、信頼できる、アクセス可能、相互運用可能、構成可能、そしてそれ自体で価値があるという原則に基づいています。Keys氏は、Next Dataがどのように自律型データプロダクトを実装しているかを示し、Databricks Asset Bundlesを使ったデータプロダクト構築の試みを通して、その課題とNext Dataのソリューションが提供する利点を比較しています。最終的に、この発表は、データメッシュとデータプロダクトの原則と実践を、具体的な技術的実装の観点から深く掘り下げています。

manabianmanabian

Databricks on Databricks: Powering Marketing Insights with Lakehouse

基本情報

概要

この講演では、Databricksがマーケティングデータ基盤をどのように変革し、今日のマーケティング担当者が直面する課題を解決したかを紹介しています。彼らは、顧客行動の予測、キャンペーンの最適化、パーソナライズされた体験の提供といった、増大する期待に応えるため、従来の断片化されたデータ、重複、多数のダッシュボードといった問題を克服する必要がありました。Databricksは、すべてのマーケティングデータに対する単一の真実の源泉を確立し、意思決定を改善し、よりモジュール式で準拠したシステムを構築するために、レイクハウス・アーキテクチャを採用しました。このアプローチは、アナリストがデータをより効率的に探索できるようにするだけでなく、AIを活用した「Genie」のようなツールを通じて、マーケティング担当者が自然言語でデータと対話し、信頼性の高いインサイトを迅速に得られるようにすることで、「10倍のマーケティング担当者」という新たな標準を実現しています。

manabianmanabian

Data Modeling 101 for Data Lakehouse Demystified

基本情報

概要

この発表は、レイクハウス環境におけるデータモデリングの課題と解決策に焦点を当てています。講演者は、データレイクハウスの3層構造、すなわちデータ取り込みのための最適化されたファイル形式、Delta Lakeのようなレイクハウス形式、そしてメダリオンアーキテクチャについて説明しています。特に、ブロンズ(生データ)、シルバー(整理・統合されたデータ)、ゴールド(最終利用者のためのデータ)という3つの層にわたるデータフローとその最適な実装方法が詳細に解説されています。発表の後半では、メダリオンアーキテクチャの課題を克服し、スケーラブルで堅牢なデータ統合を実現するためのデータボールトモデリングの導入が提案されており、これがレイクハウスと組み合わせることで**「データレイクハウスの規律」**が確立されると強調されています。

manabianmanabian

The Hitchhiker's Guide to Delta Lake Streaming in an Agentic Universe

基本情報

概要

この資料は、設定に基づいて自動的にデータパイプラインを構築するというコンセプトと、その自動化を支援するエージェントツールの活用について説明しています。スピーカーのスコット・ヘインズ氏は、長年の経験から、ほとんどのデータパイプラインは設定と変換で構成されており、特にSparkアプリケーションにおけるストリーミングデータの読み込み(ソース)と書き込み(シンク)の部分は定型的な処理であると強調しています。彼は、これらの定型的なタスクを構成駆動型開発によって自動化し、エンジニアがデータ変換という最も重要な部分に集中できるようにすることを提案します。さらに、彼はUnity CatalogのAPIを例に、ツールがLLM(大規模言語モデル)と連携して、データ探索やパイプライン構築のプロセスを効率化する方法を実演しており、これにより人間の介入を減らし、作業の手間を省くことができると述べています。

manabianmanabian

Welcome Lakehouse, from a DWH transformation to a M&A data sharing

基本情報

概要

この発表は、DXC TechnologyとFastwebによる、従来のデータウェアハウスから最新のデータレイクハウスへの変革の道のりを詳述しています。彼らは、パフォーマンスの課題、データの品質、市場投入までの時間、データアクセシビリティ、プライバシーとセキュリティといった主要なビジネス上の問題を特定しました。これらの課題に対処するため、彼らはデータブリックスレイクハウスを選択し、データの一元化されたカタログ化と管理、アジャイルなデータ開発運用、そして暗号化とマスキングによる強固なセキュリティを強調しました。特に注目すべきは、買収後の企業間で安全かつ効率的なデータ共有を実現するためにレイクハウスがいかに貢献したかという事例で、これにより異なるプラットフォーム間でのデータ統合が迅速に行われ、ビジネスの重複を避けることが可能になりました。

manabianmanabian

The JLL Training and Upskill Program for Our Warehouse Migration to Databricks

基本情報

概要

この資料は、JLLが120人のデータアナリストをDatabricksの熟練者へと育成し、大規模なデータウェアハウス移行を成功させたプロセスについて詳述しています。JLLは、グローバルチームの分散性、限られた予算、そして既存業務の継続といった課題を克服するため、「Databricks Odyssey」というゲーミフィケーションを活用した学習プログラムを開発しました。このプログラムは、「学習する」「実践する」「認定される」という3つの柱に基づき、参加型アプローチと成果の可視化を通じて、従業員の意識改革と技術習得を促進しました。その結果、JLLはデータ移行を円滑に進め、従業員の定着率向上や採用コスト削減といったビジネス価値を実現し、人材への投資が技術的変革の成功に不可欠であることを示しています。

manabianmanabian

Unified Advanced Analytics: Integrating Power BI and Databricks Genie for Real-time Insights

基本情報

概要

このYouTubeの講演は、Power BIとDatabricks Genieを統合することで、データ可視化と生成AIを活用した統一されたユーザー体験を創造する方法を解説しています。登壇者たちは、Power BIレポートの複雑さと、ユーザーがデータにアクセスするために複数のプラットフォームを使用しているという課題を特定しました。その解決策として、Power BIとGenieの両方で完全に同一のデータセットを使用し、Power BIで行われていたデータ変換をDatabricksに移行することで、単一の信頼できる情報源を確立しました。このアプローチにより、レポートのパフォーマンス向上とデータガバナンスの強化が実現し、ユーザーは自然言語でデータを問い合わせ、Power BIの視覚化とGenieのAI機能の両方にアクセスできる単一のエントリーポイントを得ることができました。

manabianmanabian

SQL-Based ETL: Options for SQL-Only Databricks Development - YouTube

基本情報

概要

このDatabricksの動画では、SQLのみでETL(抽出、変換、ロード)プロセスを実行するための様々な選択肢が探求されています。講演者は、PythonやScalaのようなプログラミング言語を学ぶことなく、既存のSQLスキルを活用してデータ変換を効率的に管理したいと考えるチームに焦点を当てています。具体的には、dbt (data build tool) と SQL Mesh の2つの主要なツールが紹介されており、これらがデータパイプラインの構築、依存関係の管理、テスト、デプロイをどのように簡素化するかを強調しています。また、DatabricksのワークフローやSQLタスクといったネイティブ機能の利用も検討され、それぞれに開発者体験、デプロイの容易さ、監視能力に関する利点と課題があることが説明されています。最終的に、このプレゼンテーションは、SQLをデータエンジニアリングの中心に置きながら、現代のデータウェアハウスの複雑なニーズに対応するためのツールとプラクティスを概説することを目的としています。

manabianmanabian

Data Strategy in Motion: What Successful Organizations Get Right

基本情報

概要

この講演は、Databricksのフィールド最高執行責任者であるロビン・ストゥタラ氏が、現代の加速するイノベーションのペースに企業がどのように対応すべきか、特に効果的なデータ戦略を構築することに焦点を当てています。彼女は、多くの企業がテクノロジーだけに頼りがちだが、成功の90%は「人」と「プロセス」にあると強調しています。講演の主要なテーマは、組織全体でビジネスとの連携を確立し、明確な組織設計と運用モデルを通じて、データ民主化、ガバナンス、およびプラットフォームのベストプラクティスを実行することの重要性です。さらに、測定と追跡の重要性を説き、単なる金銭的価値だけでなく、従業員のワークライフバランス向上といった文化的価値も考慮に入れるべきだと提言しています。

manabianmanabian

Bayada’s Snowflake-to-Databricks Migration: Transforming Data for Speed & Efficiency

基本情報

概要

このソースは、ホームヘルスケア組織であるBayadaが、以前の複数のレガシーデータシステムからDatabricksを中心とした統合データプラットフォームへの移行について説明しています。最高データ責任者のElaine O'Neal氏と、データアーキテクチャおよびガバナンス担当のVinitesh Gurrasad氏が、この変革の必要性と戦略的利点について説明します。彼らは、サイロ化されたデータ、手動によるレポート作成、および意思決定の遅延といったビジネス上の課題を克服し、組織をAI対応にすることを目指しています。TredenceのPraep Jr.氏は、移行を加速させるためのツールやアクセラレーターの役割について説明し、リアルタイムの意思決定洞察と自己サービス分析に重点が置かれていることを強調しています。

manabianmanabian

Advanced JSON Schema handing and Event Demuxing

基本情報

概要

このDatabricksの講演では、半構造化データ、特にJSONの取り扱いに焦点を当てています。講演者たちは、スキーマが頻繁に変化するJSONデータを大規模に効率的に処理するための課題と解決策について掘り下げています。彼らは、スキーマの推論と進化を可能にするfrom_json関数や、スキーマを指定せずにJSONを取り込むDatabricksのVARIANTデータ型といった、さまざまなデータ処理技術を紹介しています。さらに、イベントデマルチプレクシングの重要性についても議論しており、これは複雑なデータストリームを異なる宛先に分類してルーティングするプロセスであり、最新のデータパイプラインにおける柔軟性と拡張性を実現するために不可欠であると強調されています。