🙆‍♀️

【データ分析】各種データストアについて

に公開

参考:データウェアハウス、データレイク、データマートはどのように異なりますか?

データレイク(Data Lake)

  • すべての構造化データと非構造化データを保存できる一元化されたリポジトリです。
  • 膨大な量のデータを集約し、未加工のネイティブな(=生の)形式で格納するレポジトリです。
    • 構造化、半構造化、非構造化などあらゆる種類のデータを、事前に定義されたスキーマなしで取り込み、保存するように設計されています。
参考

データウェアハウス(DWH)

  • 分析およびビジネスインテリジェンス用に前処理されたデータの中心的なリポジトリです。
    • 複数のソースから得られた最新データや履歴データをビジネスに適した形で蓄積し、知見の取得やレポート作成を容易にするデータ管理システムです。
  • ウェアハウス内のすべてのデータは、 テーブルに構造化 または 事前モデル化 されています。
    • データ構造とスキーマは、高速な SQL クエリを実現すべく、最適化するように設計されています。
参考

データマート

  • テーブルのセットを含むキュレート(≒構造化)されたデータベースです。
    • 特定の基幹業務(データチームやコミュニティ、マーケティング等)やユースケースに特有のニーズにあわせて設計されています。
    • 通常、データウェアハウスよりも小規模で、特定の目的に特化しています。
    • 基本的に、SQLコマンドを使用してデータを参照します。
参考

データレイクハウス

  • データレイクとデータウェアハウスの優れた要素を取り入れた新しいオープンアーキテクチャです。
    • データレイクのように生のデータをそのままの形式で保存できます。
    • データウェアハウスのようにデータ処理や分析機能を提供します。
  • オープン API を使用してデータへの直接アクセスを提供します。
    • さまざまなな機械学習や、PyTorch、Tensorflow、XGBoost などの Python/R ライブラリをサポートすることで、データサイエンスや機械学習のユースケースをネイティブにサポートします。
参考

比較表

名称 主な目的 データの格納形式 操作言語 コスト クエリ性能
データレイク データの収集 生の構造 非SQL
データウェアハウス データの分析 スキーマによる構造化 SQL
データマート データの分析 スキーマによる構造化 SQL
データレイクハウス データの収集/
分析
生の構造/
スキーマによる構造化
SQL/
非SQL
小~大

データフロー図の例

Discussion