😊

DP-203: Data Engineering on Microsoft Azure試験に向けて理解しておきたい単語

2022/06/11に公開

DP-203なんとか合格

DP-203取得に向けた勉強で覚えておいてよかったと思う単語/名称を列挙します。単語/名称の説明を記載していますが、間違えているかもなので公式サイトなどでちゃんと確認してください。

https://twitter.com/zsipparu/status/1531261737609359360

抑えておきたいAzureサービス名の一覧

ここらへんのサービスを把握しておくとよいと思ったAzureサービスの一覧です。一番右の列は他のサービスより理解は少なめでもいけそうなので若干アイコンを小さくしました。

抑えておきたいAzureサービス名

Azureサービス/技術をざっと紹介します。正しい情報は、公式サイトを確認ください。

Azure BLOB Storage

ストレージ。ホット/クール/アーカイブ の違いを理解してるといいかも。

https://docs.microsoft.com/ja-jp/azure/storage/blobs/access-tiers-overview

Azure Stream Analytics

リアルタイム分析に使えるらしい。ウィンドウ関数の違いを理解してるといいかも。

Azure Event-Hubs

IoTセンサーからのリアルタイムデータの収集とかに使えるらしい。

Azure Synapse Analytics

DWH作ったりできる。

  • プールは2種類
    • サーバレスSQLプール
    • 専用SQLプール

Azure Data Factory

ETLサービス。Azure Data Lake Storage Gen2にあるデータを取得/加工してAzure Synapse AnalyticsのDWHに格納とかできるらしい。

Azure Databricks

Azureに最適化されたDatabricksで大量データの高速分析ができるらしい。

Azure Data Lake Storage Gen2

ビッグデータ分析に適用するよう設計されたストレージ

Microsoft PowerBI

見える化ツール、デスクトップアプリあり。Parquet形式のデータを扱える。

T-SQL

Synapseなどで使用できる。OPENROWSETが強い。

抑えておきたい単語

DP-203勉強中に、はじめて聞く単語が出てきては意味を調べてました。印象に残った単語を紹介します。

SCD(Slowly changing data)

SCDにはType1,2,3,6の4種類ある。代理キーとかビジネスキーとか専門用語あり。Typeごとの特徴を知っておくといいことありそう。

データファイル形式(JSON,CSV,Parquet,Avro)

Parquet(パーケイ), Avro(アブロ)と読むらしい。

Parquet Avro
バイナリ バイナリ
出力得意 入力得意

スタースキーマ

ビッグデータを扱うときのテーブル設計の考え方。正規化をつかったテーブル設計ではビッグデータを扱うには不向きらしい(クエリ応答が遅いらしい)。
スタースキーマにはディメンションテーブルファクトテーブルがある。代理キーという単語も意味理解が必要。

ETL

Extract(抽出),Transform(変換),Load(格納)の略

DWH

「Data Ware House」の略。データ分析に最適化されているらしい。

ーーーー

資格勉強の2カ月間は長かったです。

Discussion