🌏

データウェアハウスとは

2022/11/13に公開

エンジニアとしての初案件でデータウェアハウスの運用・保守なるものに従事することになりました。

今回はそれに際してデータウェアハウスとは?という概要を自分なりに説明させていただきます。

こういう場面でWikiを引用する記事を拝見するのですが、僕はそれで毎回萎えるのでそういうことはしません。

※以下「〜ようである、おそらく、などといった胡乱な、冗長的な表現は読みやすさに配慮して削ります。

データウェアハウス(Amazon Redshift)とは、データを加工したもの、記号化したものを格納・保管しておく場所、大きなお家です。以上です。

ここから先はよりこの結論を分かりやすくするために、「データレイク」と「データマート」という語についても説明し、その比較として改めて結論部分を読んで。

データレイク:

例えば銀行システムを例に取り、1ATMごとに一つのデータベースがあると仮定します。銀行システムの処理を考慮に入れた場合、もちろんデータベースではトランザクションが使われたデータベース(MySQL)であることが肝となります。

もちろん1ATMのデータベースのみではありませんので最終的にはそれら1、2、3・・・・・とデータベースを一つの箱に統一・集積します。データを入れる箱に統括しなければ分析するのに「1ATMは残高が〜で2ATMは残高が〜で、・・・・」となり煩雑です。

この一つに統一された箱がデータレイク(Amazon:S3)です。

データマート:

こちらは最終的にお客様が分析したいときに活用する箱、データです。極論言ってしまえばこれのみの説明でOKだとは思っています。
もう少し説明を望みであれば、

テーブルA+テーブルBを結合したりなど、お客様の知りたい情報に更新した場合の箱です。データウェアハウスとの違いはデータウェアハウスには分析する可能性のあるデータをとりあえず置いておく場所であるのに対して、こちらデータマート(Amazon:Redshift)はより分析したいお客様用に整理整頓されたデータであるという点です。

※RedshiftやBigQueryはデータウェアハウスとデータマートの機能が含まれているため、データウェアハウスとしてのサービスでRedshiftを挙げているのに、データマートでもRedshiftを挙げさせていただいております。

登場クラウドサービス:

AWS
 S3、Redshift

GCP
 Google Cloud Storage(GCS)
BigQuery

Discussion