⛳
Microsoft FabricのNotebookを使ってみる-⑤【semantic-link編】
やること
semantic-linkを使ってデータの依存関係を可視化する
参考資料
前提
下記をブログを参考に、TitanicのデータセットがLakehouseに格納されているとする
手順
- Microsoft Fabric(https://app.fabric.microsoft.com/home)にアクセス
- 「Synapse Data Engineering」をクリック
- 「ワークスペース」をクリック
4.作業を行うワークスペースをクリック
5.「+新規」をクリック
6.「ノートブック」をクリック
7.ノートブックが開くことを確認
- 「+データソース」をクリック
- 「既存のレイクハウス」を選択し、「追加」をクリック
- レイクハウスが表示されることを確認
- 下記のコードを実行し、semantic-linkをinstall
%pip install semantic-link
- 「ABFSパスのコピー」をクリックし、どこかにメモする
- 下記のコードをNotebookで実行
from sempy.fabric import FabricDataFrame
from sempy.dependencies import plot_dependency_metadata
from sempy.samples import download_synthea
download_synthea(which='small')
df = FabricDataFrame(pd.read_csv("<12でコピーしたパス>"))
deps = df.find_dependencies()
plot_dependency_metadata(deps)
- データ内の依存関係を視覚化できる
- Ticket (決定項) 列と Fare (依存) 列の間の依存関係を可視化してみる
- 以下のコードをNotebookで実行
from sempy.fabric import FabricDataFrame
from sempy.dependencies import plot_dependency_metadata
from sempy.samples import download_synthea
download_synthea(which='small')
df = FabricDataFrame(pd.read_csv("<12でコピーしたパス>"))
df.plot_dependency_violations(determinant_col="Ticket", dependent_col="Fare")
- Ticket (決定項) 列と Fare (依存) 列の間の依存関係を可視化できた
Discussion