🎃

Google Cloud 認定資格奮闘記 ~Professional Data Engineer編~

に公開

この記事の続編になります。
https://zenn.dev/akasan/articles/4d7972b7c5f84c

Professional Data Engineerについて

Professional Data Engineer(以下、PDE)は、公式では以下のように説明されています。

Professional Data Engineer は、データを収集、変換、公開することで、データを有効で価値のあるものにします。ビジネス要件と規制要件を満たすために、プロダクトやサービスを評価し、選択します。Professional Data Engineer は、堅牢なデータ処理システムを作成して管理します。これには、データ処理ワークロードを設計、構築、デプロイ、モニタリング、維持、保護する能力が含まれます。

https://cloud.google.com/learn/certification/data-engineer?hl=ja

PDEではデータを取り扱う様々なサービスを利用できるようになることで、Google Cloudを利用したデータに関連するあらゆる業務をこなせることことを証明するための資格だと考えています。私はMLエンジニアとして活動しているということもあり、データの重要性についてはおそらく他のエンジニアの方より一層シビアに感じていると思います。データの取り扱いを間違えてしまうと、あっという間にサービスの質が落ちてしまうので、私にとってPDEの内容を理解していることはとても重要であると感じており、今回受験した次第です。

PCA受験後からPDE受験までの流れ

前回PCAに合格してから次に何を受験するかを検討しており、当初はProfessional Machine Learning Engineerを受験する予定でした。しかし、その前にGoogle Cloudにおけるデータの取り扱いに精通しておきたいという希望があり、先にPDEを受験することにしました。

PCAにおいてCloud SQLなど一部のサービス(主にデータストレージやDB)については言及がありましたが、PDEではそれらをより深く言及するのに加え、データを取り扱うためのサービスについても知識を深く要求されるということでより狭く深い領域の資格でした。

今回もPCAなどの受験と同様の勉強方法を実践しましたが、一部違ったかなと思います。

  1. PDEの公式ページで出題傾向を確認する
  2. まずは模擬試験を解いて今のレベルを確認する
  3. 公式のトレーニングを受ける
  4. PDEでカバーされているサービスについて勉強する
  5. 関連する技術については別途触ってみる(例えばDataflowのためにApache Beamを触ってみる)
  6. Udemyなどの模擬試験をとく
  7. 4~6を繰り返す
  8. 当日を迎える

今回特に重視したのは4. PDEでカバーされているサービスについて勉強するになります。というのも、PDEではDataflowやDataprocをはじめとするデータを取り扱うサービス、BigQueryやBigtab leなど、いわゆるデータウェアハウス・データレイクなどデータを実際に格納するサービスについてとても深く出題されます。そのため、模擬試験を解くだけではなく、公式のドキュメントに深く目を通しどのような時に利用すべきか、どのような点を注意してサービス選択すべきかをキャッチアップしながら進めました。

また、例えばDataflowではApache Beamを利用したコーディングがあったり、DataprocではApache Hadoop/Sparkなどの利用があるということで、Google Cloudのサービスだけに収まらず、その他の技術スタックについても一定知識を求められるということでした。そのため、Google Cloudのサービスの知識はもちろんのこと、Apacheのドキュメントに目を通し、可能であればチュートリアルなどを通して実際にコーディングしてみるといった活動もしておりました。

受験結果

なんとか今回も一発で合格することができました。しかし、ACEやPCAの時と比べてより実践的かつ込み入った質問が多く、サービスの詳細もありつつ実案件でのユースケースを想定した質問など幅広くあり、今までと比べて試験完了まで結構時間がかかりました(見直しも含めて1時間は超えていたかと思います)。

苦戦したこと

PDEを受験された方は同感してもらうことが多いかもしれませんが、Data⚪︎⚪︎というサービスが多く、どれがどれか覚えるのに時間がかかりました。パッと列挙してみるだけでも

  • Dataflow
  • Dataproc
  • Dataplex
  • Datastream
  • Dataform
  • Data Fusion
  • Dataprep

とたくさんあります。それぞれお用途がありますが似たことを実現できたりすることも多く、使い分けを認識するまで少し時間がかかってしまいました。しかしこれらの使い分けを理解できたことで、実案件でどのようにサービスを選択すればいいかとてもイメージがついたと思います。

他に苦戦したこととしては、BigQueryやBigtableの取り扱い方法についてですかね。両サービスともデータを取り扱う上では根幹となるサービスかと思いますが、スキーマ設計やキー設計、バックアップ方式など取り扱う上での考慮事項が多く、慣れるまでとても時間がかかった印象です。少しでも設定を間違ってしまうとパフォーマンスに大きく影響が出るということで、自分の将来的な案件にも影響が大きいため、この辺りは特に注意深く学習し、公式ドキュメントは何回も読み込みました。

受けてみて思ったこと

先ほども書きましたが、PDEはより具体性がありデータに関する狭く深い範囲、高い実践知識が求められます。試験問題の一問一問が実案件で遭遇するだろうなと容易に想像できる内容ばかりでした。特にMLエンジニアというポジションなので、PDEを受験するとしないとでは案件をこなしていく上で大きな差があるととても実感しました。

まとめ

今回はPDE受験をした結果をまとめてみました。次はいよいよ目標であるProfessional Machine Learning Engineerを目指して活動しようと思います。が、今回みたいに他の資格を先に受験するかもしれません。どちらにしても、受験に関する自分の感想は積極的に発信していこうと思います。もしMLエンジニアなどデータを取り扱う仕事をされている方はぜひ取得を考慮してみてはいかがでしょうか?

Discussion