✒️

14日後にDP-600に合格する非データエンジニアのお話

に公開

筆者のスペック

  • クラウド業務経験
    • Microsoft Azure:8年(Solutions Architect Expert取得済み)
  • データ分析経験
    • Microsoft Fabric:検証のみ
  • 文系学部卒業

なぜ取得しようと思ったか

  • Fabricを活用したいから!(雑)

勉強法

  • Udemyの問題集を解いてみる。
  • わからないことはFelo Searchにでも聞いてみる
  • いろいろ追記します

勉強したこと

クリックして展開
キーワード 説明 備考
Row Level Security ユーザーごとにアクセス可能なデータ行を制限するセキュリティ機能 ロールを設定→クエリで設定
動的データマスキング ユーザーの権限に基づき、同じテーブルでも表示内容を動的に変更
Column-Level Security 特定の列(フィールド)へのアクセスを制御するセキュリティ機能
パーティション分割 クエリパフォーマンス向上、管理効率化、コスト最適化を目的として大規模データを管理可能な単位に分割
XMLA エンドポイント設定 外部ツールからセマンティックモデルに対する書込み/読取りを可能にする方法、容量ユニットで設定
DirectQueryフォールバック クエリ実行が失敗した場合に、キャッシュされたデータや代替処理方法を使用
マネージドテーブル データの保存や管理がシステムによって行われるテーブル 再確認
Table.Profile PowerQuery関数。テーブル内の各列に対して統計情報(最大値、最小値、平均値など)を提供
DEFINE(DAX) 変数を定義する
EVALUATE(DAX) 条件を満たすデータを取得
FILTER(DAX) テーブルをフィルタリング
SUMMARIZE(DAX) フィルタリングされた結果からテーブルを生成
個別値と重複値 データフローGen2で列ごとに個別値の個数をチェック可能
PBIP(Power BI Priject file) セマンティックモデルのプロジェクトファイル、TMDLによる変更を保存可能
PBIX PowerBI Desktopの標準ファイル形式
PBIT PowerBIテンプレートファイル
PBIDS PowerBIデータソース
GRANT ALTER ALTER権限はテーブルなどの更新権限を指し、GRANTで付与する
ユーザー定義集計 事前に集計されたデータを格納するテーブル(集計テーブル)をモデル内に定義しクエリパフォーマンスを最適化
自動集計 Power BIがレポートの利用状況(クエリパターン)を機械学習で分析し、効果的な集計を自動的に作成・管理
DirectQueryモード レポートのビジュアルが表示されるたびに、基になるデータソースに対して直接クエリが実行される
大きなデータセットのストレージ形式 Power BI Premium 容量でセマンティック モデルのスケールアウトを有効にするための設定
Vertipaq Analyzer Power BIモデルのサイズやメモリ使用量を分析するツール
暗黙的なメジャー Power BIが数値列に対して自動的に作成する合計や平均などの単純な集計
Tabular Editor Power BIやAnalysis Servicesのテーブルモデルをより高度に編集するための外部ツール。暗黙的なメジャーを無効化可能。
Load to Tables Fabricにおいてファイルデータを効率的にDelta Lakeテーブル形式に変換・読み込むための機能
V-Order最適化 Power BIのVertiPaqエンジンで採用されているストレージアルゴリズムを基に、データを論理的に整理。パフォーマンス向上、リソース最適化。
パーティション分割 分割されていないテーブルをパーティション分割するためには「上書き」必須
Microsoft Fabric Capacity Metricsアプリ Fabric 容量の使用状況とパフォーマンスに関する詳細な情報を提供
SCD Slowly Changing Dimensions。顧客、製品、場所など、通常は頻繁には変化しない(またはゆっくり変化する)ディメンションテーブルの属性を管理
Type1 SCD 既存のデータを新しいデータで上書きし、履歴は保持しない
Type2 SCD データが変更されるたびに新しいレコードを追加し、有効期間などでバージョン管理。履歴保持
ディメンション データに付加される属性。時間、製品、顧客、地域、販売チャネル、etc
モデルビュー データモデル全体、または選択したテーブルに関連する部分を表示し、テーブル間のリレーションシップ(関連性)をグラフィカルに表示する
データビュー テーブルのデータそのものを確認
DateTime型のデータ 日付と時刻を分割することでメモリ使用量を削減する
df.partitionBy Sparkの関数。指定したカラムに基づいてパーティション分割を行う。
クエリフォールディング Power BIがデータソース側で処理できる変換を実行させる機能、リソース消費を抑える
データのシャッフル ノード間でのデータ移動。broadcastで全ノードのローカルにデータ送信することができ、ノード間でのデータ結合がなくなる
動的管理ビュー(Dynamic Management View) SQL Serverの内部状態に関する情報をリアルタイムで取得するための組み込みシステムビュー
Best Practice Analyzer(Tabular Editor) モデルがベストプラクティスに従っているかをチェックする
COALESCE T-SQL関数。引数リストの中で、最初にNULLでない値を返す。
df.explain Sparkの関数。DataFrameに対して実行される操作の論理プランや物理プラン(実行計画)を表示
df.summary Spark関数。データフレームの数値列および文字列列に対して要約統計量を計算
DESCRIBE HISTORY Spark SQL。指定された Delta テーブルのトランザクション履歴を表示
mergeSchema Spark。trueにすると追加の列をテーブルに反映できる

結果

お た の し み に

Discussion