Microsoft FabricのNotebookを使ってみる-⑤【semantic-link編】

2024/02/29に公開

やること

semantic-linkを使ってデータの依存関係を可視化する

参考資料

https://learn.microsoft.com/ja-jp/fabric/data-science/semantic-link-validate-data

前提

下記をブログを参考に、TitanicのデータセットがLakehouseに格納されているとする
https://zenn.dev/headwaters/articles/90be9058404160

手順

  1. Microsoft Fabric(https://app.fabric.microsoft.com/home)にアクセス
  2. 「Synapse Data Engineering」をクリック
  3. 「ワークスペース」をクリック

    4.作業を行うワークスペースをクリック

    5.「+新規」をクリック

    6.「ノートブック」をクリック

    7.ノートブックが開くことを確認
  4. 「+データソース」をクリック
  5. 「既存のレイクハウス」を選択し、「追加」をクリック
  6. レイクハウスが表示されることを確認
  7. 下記のコードを実行し、semantic-linkをinstall
%pip install semantic-link
  1. 「ABFSパスのコピー」をクリックし、どこかにメモする
  2. 下記のコードをNotebookで実行
from sempy.fabric import FabricDataFrame
from sempy.dependencies import plot_dependency_metadata
from sempy.samples import download_synthea

download_synthea(which='small')

df = FabricDataFrame(pd.read_csv("<12でコピーしたパス>"))

deps = df.find_dependencies()
plot_dependency_metadata(deps)

  1. データ内の依存関係を視覚化できる
  2. Ticket (決定項) 列と Fare (依存) 列の間の依存関係を可視化してみる
  3. 以下のコードをNotebookで実行
from sempy.fabric import FabricDataFrame
from sempy.dependencies import plot_dependency_metadata
from sempy.samples import download_synthea

download_synthea(which='small')

df = FabricDataFrame(pd.read_csv("<12でコピーしたパス>"))

df.plot_dependency_violations(determinant_col="Ticket", dependent_col="Fare")
  1. Ticket (決定項) 列と Fare (依存) 列の間の依存関係を可視化できた
ヘッドウォータース

Discussion