DP-203: Data Engineering on Microsoft Azure試験に向けて理解しておきたい単語
DP-203なんとか合格
DP-203取得に向けた勉強で覚えておいてよかったと思う単語/名称を列挙します。単語/名称の説明を記載していますが、間違えているかもなので公式サイトなどでちゃんと確認してください。
抑えておきたいAzureサービス名の一覧
ここらへんのサービスを把握しておくとよいと思ったAzureサービスの一覧です。一番右の列は他のサービスより理解は少なめでもいけそうなので若干アイコンを小さくしました。
抑えておきたいAzureサービス名
Azureサービス/技術をざっと紹介します。正しい情報は、公式サイトを確認ください。
Azure BLOB Storage
ストレージ。ホット/クール/アーカイブ の違いを理解してるといいかも。
Azure Stream Analytics
リアルタイム分析に使えるらしい。ウィンドウ関数の違いを理解してるといいかも。
- ウィンドウ関数
- https://docs.microsoft.com/ja-jp/azure/stream-analytics/stream-analytics-window-functions
- タンブリングウィンドウ
- ホッピングウィンドウ
- スライディングウィンドウ
- セッションウィンドウ
- スナップショットウィンドウ
Azure Event-Hubs
IoTセンサーからのリアルタイムデータの収集とかに使えるらしい。
Azure Synapse Analytics
DWH作ったりできる。
- プールは2種類
- サーバレスSQLプール
- 専用SQLプール
Azure Data Factory
ETLサービス。Azure Data Lake Storage Gen2
にあるデータを取得/加工してAzure Synapse Analytics
のDWHに格納とかできるらしい。
Azure Databricks
Azureに最適化されたDatabricksで大量データの高速分析ができるらしい。
Azure Data Lake Storage Gen2
ビッグデータ分析に適用するよう設計されたストレージ
Microsoft PowerBI
見える化ツール、デスクトップアプリあり。Parquet形式のデータを扱える。
T-SQL
Synapseなどで使用できる。OPENROWSET
が強い。
抑えておきたい単語
DP-203勉強中に、はじめて聞く単語が出てきては意味を調べてました。印象に残った単語を紹介します。
SCD(Slowly changing data)
SCDにはType1,2,3,6の4種類ある。代理キー
とかビジネスキー
とか専門用語あり。Typeごとの特徴を知っておくといいことありそう。
データファイル形式(JSON,CSV,Parquet,Avro)
Parquet(パーケイ), Avro(アブロ)と読むらしい。
Parquet | Avro |
---|---|
バイナリ | バイナリ |
出力得意 | 入力得意 |
スタースキーマ
ビッグデータを扱うときのテーブル設計の考え方。正規化をつかったテーブル設計ではビッグデータを扱うには不向きらしい(クエリ応答が遅いらしい)。
スタースキーマにはディメンションテーブル
とファクトテーブル
がある。代理キー
という単語も意味理解が必要。
ETL
Extract(抽出),Transform(変換),Load(格納)の略
DWH
「Data Ware House」の略。データ分析に最適化されているらしい。
ーーーー
資格勉強の2カ月間は長かったです。
Discussion