Microsoft Fabricを使ってPower BIの主要なインフルエンサーを紹介
主要なインフルエンサーって?
データを分析して重要な要因をランク付けして可視化するビジュアルです。
売上の増減や顧客満足度の変動に影響を与える要因を自動的に特定し、データの洞察を得るための機能です。
これにより、データの背後にある因果関係を理解しやすくなります。
分析対象のメトリックに影響する要因を確認する時や、要因の相対的重要度を比較する時に効果的です。
例えば「従業員が離職するのは何が要因なのか」とか「Twitterでバズる投稿にはどんな特徴があるのか」を知りたいときに使うと良いのかなと思います。
注意点
データのバイアス
データが偏っていると主要なインフルエンサーで出力される値もかなり偏った結果になります。
逆にデータに偏りが無さすぎると上手く可視化してくれません。
初めにデータセットのバランスを確認して調整しましょう
データの量
主要なインフルエンサーで値を出すためにはそれなりにデータの数が必要です。
最低でも100以上は必要だと思いますので、データが溜まった段階で導入しましょう
データの整理
データ内に欠損値があったりすると上手く可視化できなくなってしまいますので、データ整理は必ず行いましょう
実際に使ってみる
前提
Microsoft Fabricの環境を使用しますので、プランをPower BIからFabricに変更して今回用のワークスペースを作成しておいてください。
1. データの用意
MicrosoftがPower BIの学習用に提供しているサンプルデータを使用します。
以下のサイトにアクセスしてローカルにダウンロード。
2. データの取り込み
Microsoft Fabricのワークスペースにサンプルデータをアップロードします。
左のサイドバーから「作成」をクリックして移動して、「レイクハウス」を選択
データの取得方法として、「ファイルのアップロード」を選択
右のフォルダマークのボタンからアップロードしてください
レイクハウスのFiles内にアップロードされていることを確認
3. データの変換
作成画面から次は「データフロー(Gen2)」を選択
「データを取得」タブから「詳細」を選択
先ほどアップロードしたレイクハウスのファイル内を選択
Data列内の「Tables」を選択
一覧表示できました。次にデータの同期先を指定していきます。
右下のデータの同期先にある「+」ボタンをクリックして、「レイクハウス」を選択
「次へ」を選択
ファイルをアップロードしているレイクハウスを選択して、テーブル名を適当に入力して「次へ」を選択
宛先は自動のままで大丈夫
データの同期先として設定できたらOK
「データの公開」をクリック
4. BIレポート作成
レイクハウス内にある「SQL分析エンドポイント」をクリック
「報告」タブに移動して、「既定セマンティックモデルの管理」を選択
データフロー経由で作成されたTableにチェックをつける
左上の「新しいレポート」を選択
以下のようにレポート編集画面になればOK
5. 主要なインフルエンサーを導入
ビジュアル一覧の右下の方にあるのでクリック
今回はProfit(利益)に大きく影響を与えているものは何かを可視化してみます。
分析フィールドにProfit、
説明フィールドにはSale_Price・Product・Country・Segment・Unit_Soldの平均・Discount_Band・Manufacturing_Priceを入れて見ました。
この表から分かることは以下になります。
- 利益の増加に一番影響を与えているものはSale_Price
- Sale_Priceが136.68上がれば、Profitが平均で34.98K増加する傾向がある
- SegmentがGovernmentであると、Profit が平均で24.2K増加する傾向がある
- Units Soldの平均が 549 を上回ると、Profitが平均で20.71K増加する傾向がある
このような感じで影響を与えている要因をPower BI内のAIが勝手に表で作成してくれます。
データの綺麗さや適度なバラつきが必要ですが、とても便利なのでぜひ使って見てください
Discussion