🙄
AWS DEA-C01に合格しました[2025.11.06] - ETLパイプラインとDWHのAWSサービス
AWS Certified Data Engineer - Associate(DEA-C01)の資格取得をしました。
ETLパイプラインとDWHの構築に関係する箇所が出題範囲です。
学習方法
Official Practice Question Set: AWS Certified Data Engineer - Associate (DEA-C01 - 日本語)
まず最初に試験問題セットを解いて試験レベルと出題範囲を確認しました。
AWS GlueおよびRedshiftを業務で扱った経験はなく、2025-10-18の時点で正解率60%(12/20)でした。
Exam Prep Plan: AWS Certified Data Engineer - Associate (DEA-C01 - 日本語)
AWS Skill builderでは、無料コンテンツで学習しました。
CloudLicense
CloudLicenseの有料コンテンツの問題集で学習しました。
Amazon Web Services ブログ
ETLパイプラインを1から作成するのは時間がかかるため、ブログを参考にしながら利用しているAWSサービスを調べました。
- AWS Glue を使用した個人情報の検出・マスキング・編集および Amazon OpenSearch Service へのロード
- NTT ドコモにおける AWS Glue ストリーミングジョブを活用した携帯電話基地局データのリアルタイム ETL (第一回 コスト削減)
- NTT ドコモにおける AWS Glue ストリーミングジョブを活用した携帯電話基地局データのリアルタイム ETL (第二回 パフォーマンス改善)
- Amazon Redshift との Amazon DynamoDB ゼロ ETL 統合の始め方
- TROCCO®× dbt × Amazon S3で始めるコスト安なデータ分析ジャーニーとサンプルのご紹介
- 新しい SQL コマンド MERGE と QUALIFY を Redshift の変更データキャプチャの実装と検証のために使用する
JP Contents Hub
JP Contents Hubのgithubに更新履歴の記載があるため、最新のコンテンツが確認できます。
2025/01/10にAmazon Kinesis データストリーム ハンズオンが追加されており、比較的新しいためKinesis Data FirehoseとData Streamsのハンズオンを実施しました。
学習のポイント
ETLフェーズごとの利用するサービスをまとめて、サービスのユースケースを理解するのが大事だと思います。
また、ストリーミングとバッチ処理によっても利用するAWSサービスが異なってきます。
| フェーズ | ETLタイプ | サービス名 | 主な役割 | 特徴・補足 (レイテンシ特性を強調) |
|---|---|---|---|---|
| Ingestion (取り込み) | Streaming | Amazon Kinesis Data Streams (KDS) | リアルタイムデータ収集・バッファ | 超低遅延(ミリ秒単位)。カスタムアプリケーションでのリアルタイム処理に最適。シャード単位で管理。 |
| Ingestion (取り込み) | Streaming | Amazon Kinesis Data Firehose (KDF) | ストリーミングETLとロード | 低遅延(秒〜分単位)。データをバッファリングし、効率的なバッチ書き込みでS3などにロード。サーバーレス。 |
| Ingestion (取り込み) | Streaming | Amazon MSK | フルマネージドなKafkaクラスター | 超低遅延(ミリ秒単位)。高スループット、耐障害性のあるリアルタイムデータパイプライン構築。 |
| Ingestion (取り込み) | Batch | AWS DMS | データベース移行 (フルロード/CDC) | データベースの構造化データを移行。フルロードはバッチ取り込みに相当。 サーバーレスサービスのDMS Serverlessも利用可能。 |
| Ingestion (取り込み) | Batch | AWS DataSync | ファイル/オブジェクトの転送 | オンプレミスのファイルシステムやオブジェクトストレージからAWSへの大容量ファイル転送を高速化。 |
| --- | --- | --- | --- | --- |
| Storage (保存) | - | Amazon S3 | データレイクのコアストレージ | スケーラブルで耐久性の高いオブジェクトストレージ。構造化/半構造化/非構造化データを保存。 |
| Storage (保存) | - | Amazon Redshift | クラウドデータウェアハウス | 大規模な構造化データ向け分析プラットフォーム。カラムナーストレージと超並列処理(MPP)アーキテクチャ。 |
| --- | --- | --- | --- | --- |
| Transformation (変換) & Processing | Batch / Streaming | AWS Glue | サーバーレスETL/データカタログ | バッチ(数分〜数時間)とストリーミング(秒〜分単位)に対応。SparkベースのETLジョブを提供。 PII(個人情報)の検出・マスキング・編集機能あり。 |
| Transformation (変換) & Processing | Batch / Streaming | Amazon EMR | ビッグデータ分散処理 | バッチ(数分〜数時間)とストリーミング(Spark Streaming)に対応。カスタマイズ性が高い。 |
| Transformation (変換) & Processing | Batch / Streaming | AWS Lambda | サーバーレスコンピューティング | イベント駆動で、少量のデータ変換・処理を実行。 |
| Transformation (変換) & Processing | Streaming | Amazon Managed Service for Apache Flink | 低レイテンシのステートフル処理 | 超低遅延(ミリ秒単位)。Apache Flinkを使用し、複雑な時間ウィンドウ処理をリアルタイムで実行。 |
| --- | --- | --- | --- | --- |
| Orchestration (オーケストレーション) | Batch / Streaming | AWS Step Functions | ワークフローのオーケストレーション | サーバーレスで、AWSサービスを連携。シンプルなワークフローや条件分岐に強い。 |
| Orchestration (オーケストレーション) | Batch | Amazon Managed Workflows for Apache Airflow (MWAA) | Airflowベースのワークフロー管理 | Apache Airflowのマネージドサービス。Pythonコード(DAGs)で複雑なバッチパイプラインの依存関係を管理。 |
| --- | --- | --- | --- | --- |
| Analysis (分析) | Batch | Amazon Athena | サーバーレスな対話型分析 | S3上の静的なバッチデータに対して標準SQLでクエリを実行。 |
| Analysis (分析) | Batch | Redshift Spectrum | S3データに対するクエリ | RedshiftからS3データレイク内のバッチデータに直接クエリを実行。 |
| Analysis (分析) | Streaming | Amazon OpenSearch Service | ログ分析、検索、可視化 | Kinesisと連携し、リアルタイムに近いストリーミングデータ(ログ、時系列)の検索・分析を提供。 |
受験情報
【受験日】: 2025/11/06
【スコア】: 816点
【合否】: 合格
【学習期間】: 3週間
Discussion