Open14

Databricks

M_Ando_abcM_Ando_abc

Unity Catalog

https://qiita.com/nttd-saitouyun/items/57c2ac16d874539a1209
10分で説明するUnity Catalog












Unity Catalogのデモ

https://youtu.be/xvLJrBgogBk
カタログを導入すると、名前空間が3階層になる。
カタログ.スキーマ.テーブル

データブリックスのUnity Catalog で実現する真のデータガバナンス

https://vimeo.com/885512683








データガバナンスを実現するUnity Catalog の秘密を 解き明かす

https://vimeo.com/914681771

M_Ando_abcM_Ando_abc

レイクハウスについてもう少し詳しく

https://www.nttdata.com/jp/ja/trends/data-insight/2023/0620/

従来の構成の課題

従来まではDWH + データレイクの構成だったが以下の課題があった。

・データレイクにデータが雑多に入り必要なデータが不明に(データレイクの沼化)
・データレイクにトランザクション処理がサポートしていない
・BIのような高いレスポンスが求められるワークロードに対するデータレイクの性能不足
・データレイクをDWHのデータ取り込みのストレージにすると、データが重複して保持される(構造化データやSaaSデータが特にそう)
・両システム間のデータ移動にETLが必要となり、開発コストが増加する
・テーブルとファイルのアクセス制御方式の違いによるデータガバナンスの不整合が生じる

レイクハウスはこれらの課題を解決する

レイクハウスとは

レイクハウスはDWHとデータレイクの強みを補完した特徴をもっている。

・BIと機械学習を透過的に扱う
・構造化データ、準構造化データ、非構造化データのサポート
・ACIDトランザクションのサポート

より細かい特徴
・テーブルに対する行列レベルの細かなアクセス制御
・Schema On Write / Schema On Readの使い分け
・データレイク(オブジェクトストレージ)の特徴もあり単価が低いためコストを低減できる。。らしい

M_Ando_abcM_Ando_abc

Delta Live Tables

https://youtu.be/_7HSZsYpiek
https://youtu.be/BIxwoO65ylY
https://youtu.be/pASZmKNiDDI
この動画によると、ストリーミングデータで利用することで得られるメリットが大きいとのこと。
予想だが、ストリーミングデータはそれぞれのテーブルを結合しようとするだけで複雑であるものの、DLTを使うとより簡単にストリーミングデータを扱えるのかも。
https://qiita.com/taka_yayoi/items/4062930aa26f3cd14c9f

M_Ando_abcM_Ando_abc

レイクハウスのリファレンス アーキテクチャ

https://learn.microsoft.com/ja-jp/azure/databricks/lakehouse-architecture/reference

各ユースケース別のリファレンスアーキテクチャもあるのでドキュメント参照
また、ドキュメントでは以下の各要素に対するベスト プラクティスについても記述がある
データ ガバナンス
相互運用性と使いやすさ
オペレーショナル エクセレンス
セキュリティ、コンプライアンス、プライバシー
信頼性
パフォーマンス効率
コスト最適化

memo


https://delta.io/blog/unifying-open-table/

M_Ando_abcM_Ando_abc

アカウント雑メモ

ログインには二種類ある?
Databricks Community Edition(無料アカウント?)
Databricks(通常利用のアカウント?)