Databricks
Databricks
キャッチアップ
Databricks の概要 - Databricks とは
↓Databricksの主要なコンポーネント
Databricks ワークスペースの作り方(AWSクイックスタート編)
実践Databricks!クラスターの作成方法(基本編)
実践Databricks - コーディングの効率を爆上げ!Notebookの使い方
Books
データブリックス クイックスタートガイド
Kindle Unlimitedで0円。または買い切り99円。
トレーニング
Free Training: Databricks Lakehouse Fundamentals
Fundamentals of the Databricks Lakehouse Platform Accreditation - Japanese (V1)
Unity Catalog
Unity Catalogのデモ
カタログ.スキーマ.テーブル
データブリックスのUnity Catalog で実現する真のデータガバナンス
データガバナンスを実現するUnity Catalog の秘密を 解き明かす
レイクハウスについてもう少し詳しく
従来の構成の課題
従来まではDWH + データレイクの構成だったが以下の課題があった。
・データレイクにデータが雑多に入り必要なデータが不明に(データレイクの沼化)
・データレイクにトランザクション処理がサポートしていない
・BIのような高いレスポンスが求められるワークロードに対するデータレイクの性能不足
・データレイクをDWHのデータ取り込みのストレージにすると、データが重複して保持される(構造化データやSaaSデータが特にそう)
・両システム間のデータ移動にETLが必要となり、開発コストが増加する
・テーブルとファイルのアクセス制御方式の違いによるデータガバナンスの不整合が生じる
レイクハウスはこれらの課題を解決する
レイクハウスとは
レイクハウスはDWHとデータレイクの強みを補完した特徴をもっている。
・BIと機械学習を透過的に扱う
・構造化データ、準構造化データ、非構造化データのサポート
・ACIDトランザクションのサポート
より細かい特徴
・テーブルに対する行列レベルの細かなアクセス制御
・Schema On Write / Schema On Readの使い分け
・データレイク(オブジェクトストレージ)の特徴もあり単価が低いためコストを低減できる。。らしい
メダリオンアーキテクチャ
ブロンズ (生)、シルバー (検証済み)、および ゴールド (補強済み)
Delta Live Tables
予想だが、ストリーミングデータはそれぞれのテーブルを結合しようとするだけで複雑であるものの、DLTを使うとより簡単にストリーミングデータを扱えるのかも。
レイクハウスのリファレンス アーキテクチャ
各ユースケース別のリファレンスアーキテクチャもあるのでドキュメント参照
また、ドキュメントでは以下の各要素に対するベスト プラクティスについても記述がある
データ ガバナンス
相互運用性と使いやすさ
オペレーショナル エクセレンス
セキュリティ、コンプライアンス、プライバシー
信頼性
パフォーマンス効率
コスト最適化
memo
トレーニング
Databricks ワークフロー
Get Started with Databricks for Data Engineering - Japanese より
アカウント雑メモ
ログインには二種類ある?
Databricks Community Edition(無料アカウント?)
Databricks(通常利用のアカウント?)
スライド資料
Delta Lake
データモデリング
パフォーマンスチューニング
Databricks SQL Cheatsheet