🐨

Microsoft Fabricのメダリオンアーキテクチャとは

2024/09/29に公開

Microsoft Fabricを活用したプロジェクトも増えてきており、今後もメダリオンアーキテクチャを説明する機会が増えそうなのでまとめました。

メダリオンアーキテクチャについて

レイクハウス内のデータをレイヤーごとに整理して、最終的に分析に最適なデータ構造にする設計手法のこと。
Microsoft Fabricにおいて推奨されている設計アプローチです。

レイヤーはブロンズ(生)・シルバー(検証済み)・ゴールド(強化)の三つで構成されていて、それぞれのレイヤーがゴールド→シルバー→ブロンズの順にデータの品質が高いことを示しています。
各レイヤーごとに原子性、一貫性、分離、耐久性(ACID)を保証して複数の検証と変換を行うことで分析に最適化されたデータを作成することができます。

構成する際は、三つのレイヤーそれぞれごとに単一のレイクハウス or データウェアハウスを作成します。

例1)SQL分析エンドポイントを使ってデータにアクセスしたい...三つのレイヤー全てをレイクハウスで作成
例2)データウェアハウスエンドポイントを使ってデータにアクセスしたい...ブロンズ・シルバーはレイクハウス、ゴールドはデータウェアハウスで作成


各レイヤーについて

ブロンズ

三つのレイヤーの初めにあたる層で、生データが入ります。("生ゾーン"というらしい)
ここでのデータの変更・変換は不可で、追加のみになります。


シルバー

ブロンズレイヤーにあるデータを元に、クレンジング・標準化・テーブル化されたデータが入ります。("エンリッチゾーン"というらしい)
また、他データとの統合もここでは可能です。


ゴールド

シルバーレイヤーにあるデータを元に、分析に最適化された構造に変換したデータが入ります。("キュレーションゾーン"というらしい)

ヘッドウォータース

Discussion