💡

【Microsoft Fabric入門】Fabricでデータ収集・加工・可視化までをハンズオンで理解する会

に公開

はじめに

この記事では、Microsoft Fabricを触りながら理解する会となります。

近年、生成AIの進化により、データの取り扱い方についても考える機会が多くなってきました。
データの収集、加工、可視化を一元的に行うことができるMicrosoft Fabricは、データエンジニアリングやデータサイエンスの業務を効率化するための強力なツールです。

そんなMicrosoft Fabricですが、まだまだ日本語の情報が少なく、使い方が分からないという方も多いという声をよく聞きます。

なので、今回はハンズオンを通じて、Microsoft Fabricの基本的な使い方を理解していきたいと思います。

それでは、早速始めていきましょう🚀

Microsoft Fabricとは


Microsoft Fabricは、データの統合、分析、可視化を一元的に行うことができるプラットフォームです。

以下の記事に概要がまとまっていますので、是非ご覧ください。
https://zenn.dev/microsoft/articles/microsoft_fabric_intro

Let's ハンズオン🚀

今回のハンズオンでは、Microsoft Fabricを使って、データの収集、加工、可視化までの一連の流れを体験していきます。
最終的にはダッシュボードを作成し、データの可視化を行います。

データは筆者がChatGPTを使って、サンプルデータを作成したものなので、皆様も良ければご興味あるデータを作成してハンズオンで使ってみてください。

Hands-Onで構築するデータ基盤

今回のハンズオンで構築するデータ基盤は以下となります。

外部データをLakehouseに取り込み、dataflowでデータを加工し、Warehouseでデータを蓄積・探索し、Power BIで可視化する流れを体験していきます。

Microsoft Fabricのアカウント作成

嬉しい機能として、Fabricの無料試用版が60日間も使えるので、今回のハンズオンは無料枠の中で進めていきます。
まずは、Microsoft Fabricのアカウントを作成していきましょう。

上記画像のようになっていますので、無料で試すをクリックして、Microsoft Fabricのアカウントを作成していきます。

こんな感じ画面が出てくればアカウント作成は完了です。

workspaceの作成

ログイン出来たら、まずは画面左側メニューのワークスペースより +新しいワークスペース を選択してワークスペースを作成します。

筆者は今回、satake-fabric-poc というワークスペースとしました。

レイクハウスの作成

次に、データを格納する場所を作成します。
Microsoft FabricはOneLakeという場所に一元管理されるものになり、機能としてはLakehouseという名前で提供されています。

画面左上の +新しい項目 を選択し、検索ボックスに「レイクハウス」と入力して、レイクハウスを選択します。

レイクハウスの名前を入力して、作成をクリックします。

こんな感じにレイクハウスが作成されました。

Lakehouseにデータを取り込む

レイクハウスの作成が出来たので、次はレイクハウスにデータを取り込んでいきます。

ハンズオンのサンプルデータはこちらよりお使いください。
https://github.com/SatakeYusuke19920527/sample-data

フォルダーをUploadしていきます。

データをアップロードしていきます。

こんな感じでデータがアップロードされました。

そして、csvファイルをテーブルに読み込みます。
それぞれ4つを読み込んであげてください。

読み込みをクリック

こんな感じでテーブルが作成されればOKです

dataflowとwarehouseでデータの加工

次は取り込んだデータを加工していきます。
下記の画像で言うと、dataflowとwarehouseの部分です。

warehouseの作成

まずは、warehouseを作成していきます。
画面左上の +新しい項目 を選択し、検索ボックスに「ウェアハウス」と入力して、ウェアハウスを選択します。

いい感じの名前を入力して、作成をクリックします。

こんな感じでウェアハウスが表示されればOKです。

dataflowの作成

次に、dataflowを作成していきます。
warehouseの画面に
新しいデータフロー Gen2 があるので、それをクリックします。

こちらにもいい感じに名前を付けてあげてください。

こんな感じでdataflowが作成されました。

別のソース -> からデータを取得する を選択します。
先程作成したレイクハウスを選択します。

先程、csvから作成したテーブルを選択して作成をクリックします。

画面右下のダイアグラムビューをクリックしてください。

画面上部にダイアグラムが表示されればOKです。

データの加工

少しだけ、データの加工をしてみます。

カスタム列の追加を選択し、Copilotに男女共学かどうかの判定列を追加してもらいます。

こんな感じでcolumnが追加されました。

そして画面左上の保存と実行をクリックしてデータフローを開始してください。

念の為、warehouseの画面に戻って、先程作成したdataflowをクリックして、データが更新されているか確認してみてください。
Coeducation列が追加されていることが確認できました。

セマンティックモデルの作成

ウェアハウスの画面に戻り、Model Layoutsをクリックします。
そして、画面上部の新しいセマンティックモデルをクリック

新しいセマンティックモデルの名前を入力して、テーブルを全て選択し、作成をクリックします。

こんな感じでセマンティックモデルが作成されました。

次にリレーションシップを設定していきます。
画面上部のリレーションシップの管理をクリックします。

+新しいリレーションシップ をクリックして、どんどんリレーションシップを設定していきます。

全部で3つのリレーションシップを作成してみました。

こんな感じでキレイに各tableのリレーションシップが設定されました。

Power BIでデータの可視化

最後にPowerBIでデータの可視化を行います。
セマンティックモデルの画面に戻り、このデータを探索するをクリックして、レポートの自動作成をクリックします。

こんな感じで自動にレポートが作成されました。

これでハンズオンは終了となります。
今回は非常にシンプルなデータでしたが、実際の業務ではより複雑なデータを扱うことが多いと思います。
今回のハンズオンを通じて、Microsoft Fabricの基本的な使い方を理解していただけたかと思うので、是非今後のデータ分析に活用していただければと思います。

お疲れ様でした。

まとめ

この記事では、Microsoft Fabricを使ってデータ基盤を構築する方法をハンズオン形式で紹介しました。

Microsoft Fabricは、データの統合、分析、可視化を一元的に行うことができるプラットフォームであり、データエンジニアリングやデータサイエンスの業務を効率化することができます。

今後、Microsoft Fabricの機能を活用して、データ基盤の構築する需要が多くなっていくと思いますので、先んじてFabricの使い方をマスターしていただけますと幸いです。

データ分析基盤の構築について、ご興味がある方は是非お気軽にご連絡ください。

Xだとよく反応出来るので、以下リンクよりDMいただけますと幸いです。
https://x.com/fe_js_engineer

それでは👍

参考リンク

GitHubで編集を提案
Microsoft (有志)

Discussion