Open7

Databricks

M_Ando_abcM_Ando_abc

レイクハウスについてもう少し詳しく

https://www.nttdata.com/jp/ja/trends/data-insight/2023/0620/

従来の構成の課題

従来まではDWH + データレイクの構成だったが以下の課題があった。

・データレイクにデータが雑多に入り必要なデータが不明に(データレイクの沼化)
・データレイクにトランザクション処理がサポートしていない
・BIのような高いレスポンスが求められるワークロードに対するデータレイクの性能不足
・データレイクをDWHのデータ取り込みのストレージにすると、データが重複して保持される(構造化データやSaaSデータが特にそう)
・両システム間のデータ移動にETLが必要となり、開発コストが増加する
・テーブルとファイルのアクセス制御方式の違いによるデータガバナンスの不整合が生じる

レイクハウスはこれらの課題を解決する

レイクハウスとは

レイクハウスはDWHとデータレイクの強みを補完した特徴をもっている。

・BIと機械学習を透過的に扱う
・構造化データ、準構造化データ、非構造化データのサポート
・ACIDトランザクションのサポート

より細かい特徴
・テーブルに対する行列レベルの細かなアクセス制御
・Schema On Write / Schema On Readの使い分け
・データレイク(オブジェクトストレージ)の特徴もあり単価が低いためコストを低減できる。。らしい

M_Ando_abcM_Ando_abc

Delta Live Tables

https://youtu.be/_7HSZsYpiek
https://youtu.be/BIxwoO65ylY
https://youtu.be/pASZmKNiDDI
この動画によると、ストリーミングデータで利用することで得られるメリットが大きいとのこと。
予想だが、ストリーミングデータはそれぞれのテーブルを結合しようとするだけで複雑であるものの、DLTを使うとより簡単にストリーミングデータを扱えるのかも。
https://qiita.com/taka_yayoi/items/4062930aa26f3cd14c9f

M_Ando_abcM_Ando_abc

レイクハウスのリファレンス アーキテクチャ

https://learn.microsoft.com/ja-jp/azure/databricks/lakehouse-architecture/reference

各ユースケース別のリファレンスアーキテクチャもあるのでドキュメント参照
また、ドキュメントでは以下の各要素に対するベスト プラクティスについても記述がある
データ ガバナンス
相互運用性と使いやすさ
オペレーショナル エクセレンス
セキュリティ、コンプライアンス、プライバシー
信頼性
パフォーマンス効率
コスト最適化