🙆♀️
【データ分析】各種データストアについて
参考:データウェアハウス、データレイク、データマートはどのように異なりますか?
データレイク(Data Lake)
- すべての構造化データと非構造化データを保存できる一元化されたリポジトリです。
- 膨大な量のデータを集約し、未加工のネイティブな(=生の)形式で格納するレポジトリです。
- 構造化、半構造化、非構造化などあらゆる種類のデータを、事前に定義されたスキーマなしで取り込み、保存するように設計されています。
データウェアハウス(DWH)
- 分析およびビジネスインテリジェンス用に前処理されたデータの中心的なリポジトリです。
- 複数のソースから得られた最新データや履歴データをビジネスに適した形で蓄積し、知見の取得やレポート作成を容易にするデータ管理システムです。
- ウェアハウス内のすべてのデータは、 テーブルに構造化 または 事前モデル化 されています。
- データ構造とスキーマは、高速な SQL クエリを実現すべく、最適化するように設計されています。
データマート
- テーブルのセットを含むキュレート(≒構造化)されたデータベースです。
- 特定の基幹業務(データチームやコミュニティ、マーケティング等)やユースケースに特有のニーズにあわせて設計されています。
- 通常、データウェアハウスよりも小規模で、特定の目的に特化しています。
- 基本的に、SQLコマンドを使用してデータを参照します。
データレイクハウス
- データレイクとデータウェアハウスの優れた要素を取り入れた新しいオープンアーキテクチャです。
- データレイクのように生のデータをそのままの形式で保存できます。
- データウェアハウスのようにデータ処理や分析機能を提供します。
- オープン API を使用してデータへの直接アクセスを提供します。
- さまざまなな機械学習や、PyTorch、Tensorflow、XGBoost などの Python/R ライブラリをサポートすることで、データサイエンスや機械学習のユースケースをネイティブにサポートします。
参考
比較表
名称 | 主な目的 | データの格納形式 | 操作言語 | コスト | クエリ性能 |
---|---|---|---|---|---|
データレイク | データの収集 | 生の構造 | 非SQL | 安 | 低 |
データウェアハウス | データの分析 | スキーマによる構造化 | SQL | 高 | 高 |
データマート | データの分析 | スキーマによる構造化 | SQL | 安 | 高 |
データレイクハウス | データの収集/ 分析 |
生の構造/ スキーマによる構造化 |
SQL/ 非SQL |
小~大 | 高 |
Discussion