🙌

AWS Certified Data Engineer - Associate 合格までの道のり

2024/05/25に公開

AWS

合格記

認定資格

tech

2024/5/25にAWS認定試験Data Engineer - Associateに合格しました！

この記事ではこれから当資格を受験する方に向けて勉強方法や試験のポイントなど簡単にお伝えできればなと思います。
なお、AWS認定試験とは。についてはこの記事を読む方は重々承知されているかと思うので割愛します。他の方も大量に情報を出しているので、そちらをご参照ください！

DEAとは

Data Engineer - Associateは2024/3/12にリリースされた、比較的新しいアソシエイトレベルの認定資格です。

これまでは専門知識レベルで提供されていた、Database SpecialityとData Analytics Specialityが廃止され、それらを統合した内容をベースに試験が作成されているということです。
上記のリリースノートにもあるように、昨今データの利活用が盛んになってきており、データエンジニアという職種が非常に注目されるようになってきています。そこで、AWSを利用してデータエンジニアリングを行う際のベストプラクティスを学んでもらおうという目的で、さらにより広いユーザーを対象にした内容となっています。

勉強方法

AWS Skill Builderの方で公式のサンプル問題や勉強のためのコースが提供されています。まずはこちらを見ていくのが良いかと思います。

出てくるリソースを把握することが何よりも大事なので、試験ガイドも目を通します。

かなり細かく記載されていますが、試験ごとに重み設定があるのでそこからサービスを紐づけて考えてみましょう。

第 1 分野: データの取り込みと変換 (採点対象コンテンツの 34%)
第 2 分野: データストア管理 (採点対象コンテンツの 26%)
第 3 分野: データ運用とサポート (採点対象コンテンツの 22%)
第 4 分野: データセキュリティとガバナンス (採点対象コンテンツの 18%)

データの取り込みと変換

AWSにおいてデータの取り込みを行うサービスとしては、DMSやKinesis、DataSync等がありますが、それぞれの利用場面を把握しましょう。DataSyncとDMSの使い分けや、Data FirehoseとData StreamsとMSKの組み合わせなどは、他の試験でも問われますが特に問われる頻度は高くなるでしょう。
データ変換といえばGlueが思い浮かびますが、他にもEMRやStepfunctionsを利用するなど様々な手法が取れます。それぞれどの場面で利用できるかを適切に要件から読み取りましょう。ETLパイプラインという文脈でBlackbelt等検索すれば重要な情報をキャッチできるかと思います。
さらにETLパイプラインをどのように管理(オーケストレーション)するかというのも重要なポイントなので、上記の使い分けと合わせて構成を確認すると良いと思います。

データストア管理

どのようなデータ構造のデータを管理するかで選択できるデータストアが変化するので、RDS・S3・Dynamo DB・RedShiftなどデータストアとして利用できるサービスの特性を確認しましょう。
さらに分析の文脈まで踏み込むと、例えばS3とAthenaで分析する際に、.csv形式ではなく.parquet形式の方が性能が良くなる等データ形式についても頻出なので、最低限この差は抑えておくと良いかと思います。
データストアだけでなく、データカタログという概念がデータ分析には入ってきます。メタデータを管理し、分析サービスからはそのメタデータを参照してテーブルを定義するといった使い方がされます。ここはGlueのサービス群の中に適切なサービスがあるかと思うのでご確認ください。
データのライフサイクル管理も重要なポイントですので、S3やRedShiftでデータのライフサイクルをどう管理できるかはきちんと理解しておきましょう。

データ運用とサポート

データ分析を行うということは、よりビジネスに近い部分で成果を出すことが目的です。そのため、反復処理はできる限り自動化し運用負荷を下げられるようなアーキテクチャを考えましょう。自動化に加えてセキュアな環境を構築するために必要な要素は確実に抑えておくのが重要になります。GlueやEMRなどが該当するでしょうか。
さらに複数人でデータ分析を行うために必要な設定も非常によく聞かれる部分ですので、Athenaを複数人・チームで利用する際の構成や権限設定は確認しておきましょう。
データの品質担保という点で、重複排除や一部クエリなども問われるので、AWSサービスでマネージドにできるものがないか等再度ご確認ください。パイプラインの中で対応できるのか、他のアーキテクチャを考えないといけないのかが問われます。

データセキュリティとガバナンス

先ほどの章と被る部分もありますが、セキュアにガバナンスを効かせてデータ分析基盤を構築するために必要な部分が問われます。
IAMはもちろんですが、割と新しいLakeFormationなども対象になりますので、サービスが分からない方は概要を把握しておきましょう。

勉強ポイント

これらを踏まえてより勉強しておいた方がいいと思うポイントをいくつか記載しておきます。

Athenaのワークグループ設定
AthenaにはS3に対してクエリを実行する機能がありますが、クエリ実行環境を分けるためのワークグループという機能があります。
これを使うことで、複数人・チームでの分析作業を権限などを分けながら管理することができます。さらにワークグループ単位でコスト制限もできたりと、意外と強力な機能です。

Glueの機能群
Glueにはたくさんの機能があります。クローラやジョブはもちろんですが、DataBrewというデータの前処理を行うための機能が強力です。
公式の立て付けとしてはデータのクリーニング、正規化、変換のためのフルマネージド型のビジュアルデータ準備サービスとなっており、ETLとは別にビジュアライズされたデータ前処理に特化したワークフローを定義できます。

他にもジョブのブックマークといった用語は内容を確認しておいた方が良いかと思います。

Lakeformation
構築に長い時間がかかるデータレイク環境を短期間に構築できるというマネージドサービスです。
これまで試験で問われることはなかったかなと思いますが、この試験では明確に対象となっていますし、内容的にはドンピシャなものなので詳しくサービス内容はみておきましょう。

所感

試験時間は日本語を選択すると30分追加されるので150分になります。
私は見直し込みで80分ほどで完了しました。日本語訳は一部不適切な部分もあるので、怪しい場合は英語原文に切り替えて確認する癖をつけましょう。

出題としては、上記でまとめていた通りのサービスが頻繁に問われました。一部クエリの形式が問われる場面もあったので、簡単でいいので正規表現やクエリ構文もみておくといいかもしれません。

レベル感としては、廃止されたSpecialityを持っている方は簡単に感じられるのではないかと思いました。まだこれから勉強を始めるという方は、データ分析の一連の流れ(ETL,データレイク,データウェアハウスなど)を理解するところから始めると、全体感が掴めて理解度が増すと思います。

最後に

最後まで読んでいただきありがとうございます。
資格がすべてではないですが、自分の理解度を把握するツールとしては有用かと思います。
この記事を読んでいる方は少なからず興味があると信じて、この記事が少しでも力になれば嬉しいです！

ぜひ全冠目指して頑張りましょう！

GitHubで編集を提案