Open3

Databricksお勉強

a.kitazawaa.kitazawa

概要

  • データウェアハウスとデータレイクを統合する次世代のクラウド型統合データ分析基盤 「レイクハウスプラットフォーム」
  • データウェアハウスはトランザクション処理とかは得意だが、非構造データなどあらゆるデータを蓄積する点が弱点
  • データレイクは非構造データなどの蓄積が得意だが、トランザクション処理・一貫性などが弱点
  • 得意な点と弱点を補うために、あらゆるサービスを組み合わせてデータ分析基盤が構築されてきたが、サービスを組み合わせることでシステムが複雑になる、サービス間のデータコピーなどの問題が発生していた
  • レイクハウス とは上記の問題を解決するために生まれてきたアーキテクチャ
a.kitazawaa.kitazawa

レイクハウスの特徴

  • データに対するトランザクション機能
  • データガバナンス(完全性・堅牢性・監査機能のこと)
  • BIサポート
  • 計算リソースとストレージの分離
  • あらゆるデータのサポート
a.kitazawaa.kitazawa

アーキテクチャ

  • SaaSとして提供されている
  • コントロールプレーンとデータプレーンで分かれている
  • コントロールプレーンのコンポーネントとして「ノートブック」・「ジョブ」・「クラスター管理」がある
  • データプレーンのコンポーネントとして「Apache Sparkクラスター」・「S3、Storage Accountなどのデータセット」がある
  • Delta Lake:レイクハウスアーキテクチャを実現するためのストレージフレームワーク。Apache Sparkと統合されてる。ストレージとして S3 やAzure Data Lake Storage をサポートしている。
  • Apache Spark:並列分散処理フレームワーク