【Microsoft Fabric入門】Fabricでデータ収集・加工・可視化までをハンズオンで理解する会
はじめに
この記事では、Microsoft Fabricを触りながら理解する会となります。
近年、生成AIの進化により、データの取り扱い方についても考える機会が多くなってきました。
データの収集、加工、可視化を一元的に行うことができるMicrosoft Fabricは、データエンジニアリングやデータサイエンスの業務を効率化するための強力なツールです。
そんなMicrosoft Fabricですが、まだまだ日本語の情報が少なく、使い方が分からないという方も多いという声をよく聞きます。
なので、今回はハンズオンを通じて、Microsoft Fabricの基本的な使い方を理解していきたいと思います。
それでは、早速始めていきましょう🚀
Microsoft Fabricとは
Microsoft Fabricは、データの統合、分析、可視化を一元的に行うことができるプラットフォームです。
以下の記事に概要がまとまっていますので、是非ご覧ください。
Let's ハンズオン🚀
今回のハンズオンでは、Microsoft Fabricを使って、データの収集、加工、可視化までの一連の流れを体験していきます。
最終的にはダッシュボードを作成し、データの可視化を行います。
データは筆者がChatGPTを使って、サンプルデータを作成したものなので、皆様も良ければご興味あるデータを作成してハンズオンで使ってみてください。
Hands-Onで構築するデータ基盤
今回のハンズオンで構築するデータ基盤は以下となります。
外部データをLakehouseに取り込み、dataflowでデータを加工し、Warehouseでデータを蓄積・探索し、Power BIで可視化する流れを体験していきます。
Microsoft Fabricのアカウント作成
嬉しい機能として、Fabricの無料試用版が60日間も使えるので、今回のハンズオンは無料枠の中で進めていきます。
まずは、Microsoft Fabricのアカウントを作成していきましょう。
上記画像のようになっていますので、無料で試すをクリックして、Microsoft Fabricのアカウントを作成していきます。
こんな感じ画面が出てくればアカウント作成は完了です。
workspaceの作成
ログイン出来たら、まずは画面左側メニューのワークスペースより +新しいワークスペース を選択してワークスペースを作成します。
筆者は今回、satake-fabric-poc というワークスペースとしました。
レイクハウスの作成
次に、データを格納する場所を作成します。
Microsoft FabricはOneLakeという場所に一元管理されるものになり、機能としてはLakehouseという名前で提供されています。
画面左上の +新しい項目 を選択し、検索ボックスに「レイクハウス」と入力して、レイクハウスを選択します。
レイクハウスの名前を入力して、作成をクリックします。
こんな感じにレイクハウスが作成されました。
Lakehouseにデータを取り込む
レイクハウスの作成が出来たので、次はレイクハウスにデータを取り込んでいきます。
ハンズオンのサンプルデータはこちらよりお使いください。
フォルダーをUploadしていきます。
データをアップロードしていきます。
こんな感じでデータがアップロードされました。
そして、csvファイルをテーブルに読み込みます。
それぞれ4つを読み込んであげてください。
読み込みをクリック
こんな感じでテーブルが作成されればOKです
dataflowとwarehouseでデータの加工
次は取り込んだデータを加工していきます。
下記の画像で言うと、dataflowとwarehouseの部分です。
warehouseの作成
まずは、warehouseを作成していきます。
画面左上の +新しい項目 を選択し、検索ボックスに「ウェアハウス」と入力して、ウェアハウスを選択します。
いい感じの名前を入力して、作成をクリックします。
こんな感じでウェアハウスが表示されればOKです。
dataflowの作成
次に、dataflowを作成していきます。
warehouseの画面に
新しいデータフロー Gen2 があるので、それをクリックします。
こちらにもいい感じに名前を付けてあげてください。
こんな感じでdataflowが作成されました。
別のソース -> からデータを取得する を選択します。
先程作成したレイクハウスを選択します。
先程、csvから作成したテーブルを選択して作成をクリックします。
画面右下のダイアグラムビューをクリックしてください。
画面上部にダイアグラムが表示されればOKです。
データの加工
少しだけ、データの加工をしてみます。
カスタム列の追加を選択し、Copilotに男女共学かどうかの判定列を追加してもらいます。
こんな感じでcolumnが追加されました。
そして画面左上の保存と実行をクリックしてデータフローを開始してください。
念の為、warehouseの画面に戻って、先程作成したdataflowをクリックして、データが更新されているか確認してみてください。
Coeducation列が追加されていることが確認できました。
セマンティックモデルの作成
ウェアハウスの画面に戻り、Model Layoutsをクリックします。
そして、画面上部の新しいセマンティックモデルをクリック
新しいセマンティックモデルの名前を入力して、テーブルを全て選択し、作成をクリックします。
こんな感じでセマンティックモデルが作成されました。
次にリレーションシップを設定していきます。
画面上部のリレーションシップの管理をクリックします。
+新しいリレーションシップ をクリックして、どんどんリレーションシップを設定していきます。
全部で3つのリレーションシップを作成してみました。
こんな感じでキレイに各tableのリレーションシップが設定されました。
Power BIでデータの可視化
最後にPowerBIでデータの可視化を行います。
セマンティックモデルの画面に戻り、このデータを探索する
をクリックして、レポートの自動作成をクリックします。
こんな感じで自動にレポートが作成されました。
これでハンズオンは終了となります。
今回は非常にシンプルなデータでしたが、実際の業務ではより複雑なデータを扱うことが多いと思います。
今回のハンズオンを通じて、Microsoft Fabricの基本的な使い方を理解していただけたかと思うので、是非今後のデータ分析に活用していただければと思います。
お疲れ様でした。
まとめ
この記事では、Microsoft Fabricを使ってデータ基盤を構築する方法をハンズオン形式で紹介しました。
Microsoft Fabricは、データの統合、分析、可視化を一元的に行うことができるプラットフォームであり、データエンジニアリングやデータサイエンスの業務を効率化することができます。
今後、Microsoft Fabricの機能を活用して、データ基盤の構築する需要が多くなっていくと思いますので、先んじてFabricの使い方をマスターしていただけますと幸いです。
データ分析基盤の構築について、ご興味がある方は是非お気軽にご連絡ください。
Xだとよく反応出来るので、以下リンクよりDMいただけますと幸いです。
それでは👍
Discussion