🙄

AWS DEA-C01に合格しました[2025.11.06] - ETLパイプラインとDWHのAWSサービス

に公開

AWS Certified Data Engineer - Associate(DEA-C01)の資格取得をしました。

https://aws.amazon.com/jp/certification/certified-data-engineer-associate/

ETLパイプラインとDWHの構築に関係する箇所が出題範囲です。

学習方法

Official Practice Question Set: AWS Certified Data Engineer - Associate (DEA-C01 - 日本語)

https://skillbuilder.aws/learn/2JS5H1Z9KP/official-practice-question-set-aws-certified-data-engineer--associate-deac01--/NJ3V6DQJ6U?parentId=8D2R5EB4NH

まず最初に試験問題セットを解いて試験レベルと出題範囲を確認しました。
AWS GlueおよびRedshiftを業務で扱った経験はなく、2025-10-18の時点で正解率60%(12/20)でした。

Exam Prep Plan: AWS Certified Data Engineer - Associate (DEA-C01 - 日本語)

https://skillbuilder.aws/learning-plan/QYZWVSMX4B/exam-prep-plan-aws-certified-data-engineer--associate-deac01--/8D2R5EB4NH

AWS Skill builderでは、無料コンテンツで学習しました。

CloudLicense

https://cloud-license.com/exam/dea/

CloudLicenseの有料コンテンツの問題集で学習しました。

Amazon Web Services ブログ

ETLパイプラインを1から作成するのは時間がかかるため、ブログを参考にしながら利用しているAWSサービスを調べました。

  • AWS Glue を使用した個人情報の検出・マスキング・編集および Amazon OpenSearch Service へのロード

https://aws.amazon.com/jp/blogs/news/detect-mask-and-redact-pii-data-using-aws-glue-before-loading-into-amazon-opensearch-service/

  • NTT ドコモにおける AWS Glue ストリーミングジョブを活用した携帯電話基地局データのリアルタイム ETL (第一回 コスト削減)

https://aws.amazon.com/jp/blogs/news/docomo-mobaku-glue-streaming-1/

  • NTT ドコモにおける AWS Glue ストリーミングジョブを活用した携帯電話基地局データのリアルタイム ETL (第二回 パフォーマンス改善)

https://aws.amazon.com/jp/blogs/news/docomo-mobaku-glue-streaming-2/

  • Amazon Redshift との Amazon DynamoDB ゼロ ETL 統合の始め方

https://aws.amazon.com/jp/blogs/news/get-started-with-amazon-dynamodb-zero-etl-integration-with-amazon-redshift/

  • TROCCO®× dbt × Amazon S3で始めるコスト安なデータ分析ジャーニーとサンプルのご紹介

https://aws.amazon.com/jp/blogs/startup/analytics-pipeline-samples/

  • 新しい SQL コマンド MERGE と QUALIFY を Redshift の変更データキャプチャの実装と検証のために使用する

https://aws.amazon.com/jp/blogs/news/use-the-new-sql-commands-merge-and-qualify-to-implement-and-validate-change-data-capture-in-amazon-redshift/

JP Contents Hub

JP Contents Hubのgithubに更新履歴の記載があるため、最新のコンテンツが確認できます。

https://github.com/aws-samples/jp-contents-hub

2025/01/10にAmazon Kinesis データストリーム ハンズオンが追加されており、比較的新しいためKinesis Data FirehoseとData Streamsのハンズオンを実施しました。

https://catalog.us-east-1.prod.workshops.aws/workshops/31a4a613-f306-4453-97df-2d0dc54c7fa7/ja-JP

学習のポイント

ETLフェーズごとの利用するサービスをまとめて、サービスのユースケースを理解するのが大事だと思います。
また、ストリーミングとバッチ処理によっても利用するAWSサービスが異なってきます。

フェーズ ETLタイプ サービス名 主な役割 特徴・補足 (レイテンシ特性を強調)
Ingestion (取り込み) Streaming Amazon Kinesis Data Streams (KDS) リアルタイムデータ収集・バッファ 超低遅延(ミリ秒単位)。カスタムアプリケーションでのリアルタイム処理に最適。シャード単位で管理。
Ingestion (取り込み) Streaming Amazon Kinesis Data Firehose (KDF) ストリーミングETLとロード 低遅延(秒〜分単位)。データをバッファリングし、効率的なバッチ書き込みでS3などにロード。サーバーレス。
Ingestion (取り込み) Streaming Amazon MSK フルマネージドなKafkaクラスター 超低遅延(ミリ秒単位)。高スループット、耐障害性のあるリアルタイムデータパイプライン構築。
Ingestion (取り込み) Batch AWS DMS データベース移行 (フルロード/CDC) データベースの構造化データを移行。フルロードはバッチ取り込みに相当。 サーバーレスサービスのDMS Serverlessも利用可能。
Ingestion (取り込み) Batch AWS DataSync ファイル/オブジェクトの転送 オンプレミスのファイルシステムやオブジェクトストレージからAWSへの大容量ファイル転送を高速化。
--- --- --- --- ---
Storage (保存) - Amazon S3 データレイクのコアストレージ スケーラブルで耐久性の高いオブジェクトストレージ。構造化/半構造化/非構造化データを保存。
Storage (保存) - Amazon Redshift クラウドデータウェアハウス 大規模な構造化データ向け分析プラットフォーム。カラムナーストレージと超並列処理(MPP)アーキテクチャ。
--- --- --- --- ---
Transformation (変換) & Processing Batch / Streaming AWS Glue サーバーレスETL/データカタログ バッチ(数分〜数時間)とストリーミング(秒〜分単位)に対応。SparkベースのETLジョブを提供。 PII(個人情報)の検出・マスキング・編集機能あり。
Transformation (変換) & Processing Batch / Streaming Amazon EMR ビッグデータ分散処理 バッチ(数分〜数時間)とストリーミング(Spark Streaming)に対応。カスタマイズ性が高い。
Transformation (変換) & Processing Batch / Streaming AWS Lambda サーバーレスコンピューティング イベント駆動で、少量のデータ変換・処理を実行。
Transformation (変換) & Processing Streaming Amazon Managed Service for Apache Flink 低レイテンシのステートフル処理 超低遅延(ミリ秒単位)。Apache Flinkを使用し、複雑な時間ウィンドウ処理をリアルタイムで実行。
--- --- --- --- ---
Orchestration (オーケストレーション) Batch / Streaming AWS Step Functions ワークフローのオーケストレーション サーバーレスで、AWSサービスを連携。シンプルなワークフローや条件分岐に強い。
Orchestration (オーケストレーション) Batch Amazon Managed Workflows for Apache Airflow (MWAA) Airflowベースのワークフロー管理 Apache Airflowのマネージドサービス。Pythonコード(DAGs)で複雑なバッチパイプラインの依存関係を管理。
--- --- --- --- ---
Analysis (分析) Batch Amazon Athena サーバーレスな対話型分析 S3上の静的なバッチデータに対して標準SQLでクエリを実行。
Analysis (分析) Batch Redshift Spectrum S3データに対するクエリ RedshiftからS3データレイク内のバッチデータに直接クエリを実行。
Analysis (分析) Streaming Amazon OpenSearch Service ログ分析、検索、可視化 Kinesisと連携し、リアルタイムに近いストリーミングデータ(ログ、時系列)の検索・分析を提供。

受験情報

【受験日】: 2025/11/06
【スコア】: 816点
【合否】: 合格
【学習期間】: 3週間

Discussion