✒️

14日後にDP-600に合格する非データエンジニアのお話

2025/04/14に公開

 筆者のスペッククラウド業務経験
Microsoft Azure：8年（Solutions Architect Expert取得済み）

データ分析経験
Microsoft Fabric：検証のみ

文系学部卒業

 なぜ取得しようと思ったかFabricを活用したいから！（雑）

 勉強法Udemyの問題集を解いてみる。
わからないことはFelo Searchにでも聞いてみる
いろいろ追記します

 勉強したことクリックして展開

キーワード
説明
備考

Row Level Security
ユーザーごとにアクセス可能なデータ行を制限するセキュリティ機能
ロールを設定→クエリで設定

動的データマスキング
ユーザーの権限に基づき、同じテーブルでも表示内容を動的に変更

Column-Level Security
特定の列（フィールド）へのアクセスを制御するセキュリティ機能

パーティション分割
クエリパフォーマンス向上、管理効率化、コスト最適化を目的として大規模データを管理可能な単位に分割

XMLA エンドポイント設定
外部ツールからセマンティックモデルに対する書込み/読取りを可能にする方法、容量ユニットで設定

DirectQueryフォールバック
クエリ実行が失敗した場合に、キャッシュされたデータや代替処理方法を使用

マネージドテーブル
データの保存や管理がシステムによって行われるテーブル
再確認

Table.Profile
PowerQuery関数。テーブル内の各列に対して統計情報（最大値、最小値、平均値など）を提供

DEFINE(DAX)
変数を定義する

EVALUATE(DAX)
条件を満たすデータを取得

FILTER(DAX)
テーブルをフィルタリング

SUMMARIZE(DAX)
フィルタリングされた結果からテーブルを生成

個別値と重複値
データフローGen2で列ごとに個別値の個数をチェック可能

PBIP(Power BI Priject file)
セマンティックモデルのプロジェクトファイル、TMDLによる変更を保存可能

PBIX
PowerBI Desktopの標準ファイル形式

PBIT
PowerBIテンプレートファイル

PBIDS
PowerBIデータソース

GRANT ALTER
ALTER権限はテーブルなどの更新権限を指し、GRANTで付与する

ユーザー定義集計
事前に集計されたデータを格納するテーブル（集計テーブル）をモデル内に定義しクエリパフォーマンスを最適化

自動集計
Power BIがレポートの利用状況（クエリパターン）を機械学習で分析し、効果的な集計を自動的に作成・管理

DirectQueryモード
レポートのビジュアルが表示されるたびに、基になるデータソースに対して直接クエリが実行される

大きなデータセットのストレージ形式
Power BI Premium 容量でセマンティック モデルのスケールアウトを有効にするための設定

Vertipaq Analyzer
Power BIモデルのサイズやメモリ使用量を分析するツール

暗黙的なメジャー
Power BIが数値列に対して自動的に作成する合計や平均などの単純な集計

Tabular Editor
Power BIやAnalysis Servicesのテーブルモデルをより高度に編集するための外部ツール。暗黙的なメジャーを無効化可能。

Load to Tables
Fabricにおいてファイルデータを効率的にDelta Lakeテーブル形式に変換・読み込むための機能

V-Order最適化
Power BIのVertiPaqエンジンで採用されているストレージアルゴリズムを基に、データを論理的に整理。パフォーマンス向上、リソース最適化。

パーティション分割
分割されていないテーブルをパーティション分割するためには「上書き」必須

Microsoft Fabric Capacity Metricsアプリ
Fabric 容量の使用状況とパフォーマンスに関する詳細な情報を提供

SCD
Slowly Changing Dimensions。顧客、製品、場所など、通常は頻繁には変化しない（またはゆっくり変化する）ディメンションテーブルの属性を管理

Type1 SCD
既存のデータを新しいデータで上書きし、履歴は保持しない

Type2 SCD
データが変更されるたびに新しいレコードを追加し、有効期間などでバージョン管理。履歴保持

ディメンション
データに付加される属性。時間、製品、顧客、地域、販売チャネル、etc

モデルビュー
データモデル全体、または選択したテーブルに関連する部分を表示し、テーブル間のリレーションシップ（関連性）をグラフィカルに表示する

データビュー
テーブルのデータそのものを確認

DateTime型のデータ
日付と時刻を分割することでメモリ使用量を削減する

df.partitionBy
Sparkの関数。指定したカラムに基づいてパーティション分割を行う。

クエリフォールディング
Power BIがデータソース側で処理できる変換を実行させる機能、リソース消費を抑える

データのシャッフル
ノード間でのデータ移動。broadcastで全ノードのローカルにデータ送信することができ、ノード間でのデータ結合がなくなる

動的管理ビュー（Dynamic Management View）
SQL Serverの内部状態に関する情報をリアルタイムで取得するための組み込みシステムビュー

Best Practice Analyzer（Tabular Editor）
モデルがベストプラクティスに従っているかをチェックする

COALESCE
T-SQL関数。引数リストの中で、最初にNULLでない値を返す。

df.explain
Sparkの関数。DataFrameに対して実行される操作の論理プランや物理プラン（実行計画）を表示

df.summary
Spark関数。データフレームの数値列および文字列列に対して要約統計量を計算

DESCRIBE HISTORY
Spark SQL。指定された Delta テーブルのトランザクション履歴を表示

mergeSchema
Spark。trueにすると追加の列をテーブルに反映できる

 結果お た の し み に

キーワード	説明	備考
Row Level Security	ユーザーごとにアクセス可能なデータ行を制限するセキュリティ機能	ロールを設定→クエリで設定
動的データマスキング	ユーザーの権限に基づき、同じテーブルでも表示内容を動的に変更
Column-Level Security	特定の列（フィールド）へのアクセスを制御するセキュリティ機能
パーティション分割	クエリパフォーマンス向上、管理効率化、コスト最適化を目的として大規模データを管理可能な単位に分割
XMLA エンドポイント設定	外部ツールからセマンティックモデルに対する書込み/読取りを可能にする方法、容量ユニットで設定
DirectQueryフォールバック	クエリ実行が失敗した場合に、キャッシュされたデータや代替処理方法を使用
マネージドテーブル	データの保存や管理がシステムによって行われるテーブル	再確認
Table.Profile	PowerQuery関数。テーブル内の各列に対して統計情報（最大値、最小値、平均値など）を提供
DEFINE(DAX)	変数を定義する
EVALUATE(DAX)	条件を満たすデータを取得
FILTER(DAX)	テーブルをフィルタリング
SUMMARIZE(DAX)	フィルタリングされた結果からテーブルを生成
個別値と重複値	データフローGen2で列ごとに個別値の個数をチェック可能
PBIP(Power BI Priject file)	セマンティックモデルのプロジェクトファイル、TMDLによる変更を保存可能
PBIX	PowerBI Desktopの標準ファイル形式
PBIT	PowerBIテンプレートファイル
PBIDS	PowerBIデータソース
GRANT ALTER	ALTER権限はテーブルなどの更新権限を指し、GRANTで付与する
ユーザー定義集計	事前に集計されたデータを格納するテーブル（集計テーブル）をモデル内に定義しクエリパフォーマンスを最適化
自動集計	Power BIがレポートの利用状況（クエリパターン）を機械学習で分析し、効果的な集計を自動的に作成・管理
DirectQueryモード	レポートのビジュアルが表示されるたびに、基になるデータソースに対して直接クエリが実行される
大きなデータセットのストレージ形式	Power BI Premium 容量でセマンティックモデルのスケールアウトを有効にするための設定
Vertipaq Analyzer	Power BIモデルのサイズやメモリ使用量を分析するツール
暗黙的なメジャー	Power BIが数値列に対して自動的に作成する合計や平均などの単純な集計
Tabular Editor	Power BIやAnalysis Servicesのテーブルモデルをより高度に編集するための外部ツール。暗黙的なメジャーを無効化可能。
Load to Tables	Fabricにおいてファイルデータを効率的にDelta Lakeテーブル形式に変換・読み込むための機能
V-Order最適化	Power BIのVertiPaqエンジンで採用されているストレージアルゴリズムを基に、データを論理的に整理。パフォーマンス向上、リソース最適化。
パーティション分割	分割されていないテーブルをパーティション分割するためには「上書き」必須
Microsoft Fabric Capacity Metricsアプリ	Fabric 容量の使用状況とパフォーマンスに関する詳細な情報を提供
SCD	Slowly Changing Dimensions。顧客、製品、場所など、通常は頻繁には変化しない（またはゆっくり変化する）ディメンションテーブルの属性を管理
Type1 SCD	既存のデータを新しいデータで上書きし、履歴は保持しない
Type2 SCD	データが変更されるたびに新しいレコードを追加し、有効期間などでバージョン管理。履歴保持
ディメンション	データに付加される属性。時間、製品、顧客、地域、販売チャネル、etc
モデルビュー	データモデル全体、または選択したテーブルに関連する部分を表示し、テーブル間のリレーションシップ（関連性）をグラフィカルに表示する
データビュー	テーブルのデータそのものを確認
DateTime型のデータ	日付と時刻を分割することでメモリ使用量を削減する
df.partitionBy	Sparkの関数。指定したカラムに基づいてパーティション分割を行う。
クエリフォールディング	Power BIがデータソース側で処理できる変換を実行させる機能、リソース消費を抑える
データのシャッフル	ノード間でのデータ移動。broadcastで全ノードのローカルにデータ送信することができ、ノード間でのデータ結合がなくなる
動的管理ビュー（Dynamic Management View）	SQL Serverの内部状態に関する情報をリアルタイムで取得するための組み込みシステムビュー
Best Practice Analyzer（Tabular Editor）	モデルがベストプラクティスに従っているかをチェックする
COALESCE	T-SQL関数。引数リストの中で、最初にNULLでない値を返す。
df.explain	Sparkの関数。DataFrameに対して実行される操作の論理プランや物理プラン（実行計画）を表示
df.summary	Spark関数。データフレームの数値列および文字列列に対して要約統計量を計算
DESCRIBE HISTORY	Spark SQL。指定された Delta テーブルのトランザクション履歴を表示
mergeSchema	Spark。trueにすると追加の列をテーブルに反映できる

筆者のスペック

なぜ取得しようと思ったか

勉強法

勉強したこと

結果

Discussion