🌟

【Microsoft Fabric】 データフロー Gen2 について

2024/03/16に公開

データフローとは

データフローは、スケーラブルなデータ変換プロセスを構築および実行するためのクラウドベースのETL ("抽出、変換、読み込み") ツールの一種です。

データフロー Gen2 を使用すると、さまざまなソースからデータを抽出し、幅広い変換操作を使用して変換し、変換先に読み込むことができます。 Power Query Online を使用して、これらのタスクをビジュアル インターフェイスで実行することもできます。従来、データ エンジニアは、データを抽出、変換、読み込んで、ダウンストリーム分析に使用可能な形式にするのにかなりの時間を費やしています。 データフロー Gen2 の目的は、Power Query Online を使用して ETL タスクを実行するための簡単で再利用可能な方法を提供することです。

Microsoft Fabric でデータフロー (Gen2) を作成する

ワークスペースの作成

※ワークスペースを作成している場合はスキップ。

  1. Microsoft Fabricに入る。
    https://app.fabric.microsoft.com/home

  2. [Synapse Data Engineering]をクリックする。

  3. 左側のメニューバーで、[ワークスペース] をクリックする。

  4. [新しいワークスペース]をクリックする。

  5. 名前を入力し、連絡先一覧を割り当てる。連絡先は基本的には自分のアカウントを割り当てることになると思います。(説明、ドメインはなくても大丈夫です)

  6. ライセンスモードを選択する。(今回はPower BI Proを使うことはないので「ファブリック容量」を選択しました。将来的にPower BIの記事を公開予定です)

  7. 「規定のストレージ形式」を選択する。「大きなセマンティック モデルのストレージ形式」はPower BI Proで使用されることが多いので、今回は 「小さなセマンティック モデルのストレージ形式」を選択します。

  8. キャパシティを選択する。(2024年2月現在だと"East US"しか選べないです)

  9. [適用]をクリックする。(テンプレートアプリを使用することはないので、スキップで大丈夫です)

レイクハウスの作成

※レイクハウスを作成している場合はスキップ。

  1. Microsoft Fabricに入る。
    https://app.fabric.microsoft.com/home

  2. "Synapse Data Engineering"をクリックする。

  3. 「作成」をクリックする。

  4. 「レイクハウス」をクリックする。

  5. 「名前」を入力し、「作成」をクリックする。

  6. レイクハウスが作成されることを確認する。作成には15秒ほどかかります。

データフロー (Gen2) を作成してデータを取り込む

  1. 新規レイクハウスが開かれることを確認し、[データ フロー Gen2]をクリックする。

  2. 数秒後、新しいデータフローのPower Query エディターが開かれることを確認し、今回はCSVファイルを使用するので、[Text ファイルまたは CSV ファイルからインポート]をクリックする。

  3. 私の場合はOneDriveにデータがあったので、[OneDriveの参照...]をクリックし、対象のデータをアップロードする。

    OneDriveやSharePointではなく、ローカルPCにデータがあって、それをアップロードする場合は[ファイルのアップロード]をクリックし、データを赤枠箇所にドラックします。

  4. ファイルがアップロードされたことを確認し、[次へ]をクリックする。

  5. 今回のデータは会社のOneDriveに格納されてあるため、組織アカウントを選択し、[次へ]をクリックする。

  6. ファイルデータのプレビューが表示されるので、問題なければ[作成]をクリックする。

  7. Power Queryエディターにデータソースとデータを書式設定するためのクエリステップの初期セットが表示されます。(右下の[公開]はクリックしなくても大丈夫です)

パイプラインにデータフローを追加する

データフローをアクティビティとしてパイプラインに含めることができます。 パイプラインを使用してデータ インジェストと処理アクティビティを調整し、1 つのスケジュールされたプロセスでデータフローを他の種類の操作と組み合わせることができます。

  1. 一旦、データフローを閉じ、画面が切り替わったら[+新規]をクリックする。

  2. [データ パイプライン]をクリックする。

  3. 新規パイプラインの名前を入力し、[作成]をクリックする。

  4. パイプライン エディターが開かれたら、[パイプライン アクティビティの追加] をクリックする。

  5. [データ フロー]をクリックする。

  6. 画面が切り替えることを確認し、作成したデータフローをクリックする。

  7. 下部の[設定]をクリックし、対象のワークスペースとデータフローを選択する。

  8. [保存]をクリックする。

  9. 「保存が完了しました」が表示されることを確認する。

  10. [実行]をクリックする。

  11. 処理が成功することを確認する。

ヘッドウォータース

Discussion