Open3
Databricksお勉強
概要
- データウェアハウスとデータレイクを統合する次世代のクラウド型統合データ分析基盤 「レイクハウスプラットフォーム」
- データウェアハウスはトランザクション処理とかは得意だが、非構造データなどあらゆるデータを蓄積する点が弱点
- データレイクは非構造データなどの蓄積が得意だが、トランザクション処理・一貫性などが弱点
- 得意な点と弱点を補うために、あらゆるサービスを組み合わせてデータ分析基盤が構築されてきたが、サービスを組み合わせることでシステムが複雑になる、サービス間のデータコピーなどの問題が発生していた
- レイクハウス とは上記の問題を解決するために生まれてきたアーキテクチャ
レイクハウスの特徴
- データに対するトランザクション機能
- データガバナンス(完全性・堅牢性・監査機能のこと)
- BIサポート
- 計算リソースとストレージの分離
- あらゆるデータのサポート
アーキテクチャ
- SaaSとして提供されている
- コントロールプレーンとデータプレーンで分かれている
- コントロールプレーンのコンポーネントとして「ノートブック」・「ジョブ」・「クラスター管理」がある
- データプレーンのコンポーネントとして「Apache Sparkクラスター」・「S3、Storage Accountなどのデータセット」がある
- Delta Lake:レイクハウスアーキテクチャを実現するためのストレージフレームワーク。Apache Sparkと統合されてる。ストレージとして S3 やAzure Data Lake Storage をサポートしている。
- Apache Spark:並列分散処理フレームワーク