🦔

Google Cloud Certified - Associate Data Practitioner Beta 試験受けてみた(速報)

2024/11/12に公開

はじめに

@mujyun_furu こと古林 信吾(ふるばやし しんご)です。
今回は、2024/11/6 から受験できるようになった Google Cloud Certified - Associate Data Practitioner の Beta 試験を受けてみた速報です。

https://cloud.google.com/learn/certification/data-practitioner

今まで、1つしか存在しなかった、Google Cloude 認定の Associate(中級)資格ですが、この度2つ増えました。

Associate Google Workspace Administrator - Beta (AWA?)
 Associate Data Practitioner - Beta (ADP)

Associate Google Workspace Administrator は、これまで存在していた Professional Google Workspace Administrator (PWA) が終了し、新規で Associate レベルとなるとのことです。
一方、Associate Data Practitioner は、Professional Data Engineer (PDE) の下位資格のようです。

Beta 試験ですが、11/6 - 12/1 まで受験でき、結果は 6週間から 8週間後に分かるということなので、2025/1 末には分かるようです。

試験時間は 150分と長く、問題数も約 70問と通常試験より多いだけでなく、英語でしか受験できません。

最近資格増やした A 社みたいに日本語 Beta 試験も提供して欲しいですね!
(そもそも日本語化できていない Professional Machine Learning Engineer (PMLE) と Professional Cloud Database Engineer (PCDE) の日本語化速く!)

試験の概要(Geminiによる翻訳)

Google Cloud 認定アソシエイトデータプラクティショナー 試験ガイド

アソシエイトデータプラクティショナーは、Google Cloud上のデータを保護および管理します。この個人は、データの取り込み、変換、パイプライン管理、分析、機械学習、可視化などのタスクにGoogle Cloudデータサービスを使用した経験があります。受験者は、サービスとしてのインフラストラクチャ(IaaS)、サービスとしてのプラットフォーム(PaaS)、サービスとしてのソフトウェア(SaaS)などのクラウドコンピューティングの概念を基本的に理解しています。

セクション1:データの準備と取り込み(試験の約30%)

1.1 データの準備と処理。考慮事項には以下が含まれます。

  • さまざまなデータ操作方法(例:ETL、ELT、ETLT)を区別する
  • 適切なデータ転送ツールを選択する(例:Storage Transfer Service、Transfer Appliance)
  • データ品質を評価する
  • データクリーニングを実行する(例:Cloud Data Fusion、BigQuery、SQL、Dataflow)

1.2 適切なGoogle Cloudストレージシステムへのデータの抽出とロード。考慮事項には以下が含まれます。

  • データの形式を区別する(例:CSV、JSON、Apache Parquet、Apache Avro、構造化データベーステーブル)
  • 適切な抽出ツールを選択する(例:Dataflow、BigQuery Data Transfer Service、Database Migration Service、Cloud Data Fusion)
  • 適切なストレージソリューションを選択する(例:Cloud Storage、BigQuery、Cloud SQL、Firestore、Bigtable、Spanner、AlloyDB)
  • 適切なデータストレージロケーションタイプを選択する(例:リージョン、デュアルリージョン、マルチリージョン、ゾーン)
  • 構造化、非構造化、または半構造化データ要件を持つユースケースを分類する
  • 適切なツール(例:gcloudおよびBQ CLI、Storage Transfer Service、BigQuery Data Transfer Service、クライアントライブラリ)を使用して、Google Cloudストレージシステムにデータをロードする

セクション2:データ分析とプレゼンテーション(試験の約27%)

2.1 BigQueryとJupyterノートブックを使用して、データの傾向、パターン、洞察を特定する。

  • 重要な洞察を抽出しレポートを生成するためにBigQueryでSQLクエリを定義および実行する。
  • Jupyterノートブックを使用してデータを分析および視覚化する(例:Colab Enterprise)。
  • ビジネス上の質問に答えるためにデータを分析する。

2.2 ビジネス要件に基づいてLookerでデータを視覚化し、ダッシュボードを作成する。考慮事項には以下が含まれます。

  • ビジネス上の質問に答えるためにダッシュボードを作成、変更、共有する。
  • 異なる分析ユースケースについてLookerとLooker Studioを比較する。
  • データモデルを変更するために単純なLookMLパラメーターを操作する。

2.3 MLモデルを定義、トレーニング、評価、使用。考慮事項には以下が含まれます。

  • BigQuery MLとAutoMLを使用してモデルを開発するためのMLユースケースを特定する。
  • BigQueryのリモート接続を使用して、事前トレーニング済みのGoogle大規模言語モデル(LLM)を使用する。
  • 標準のMLプロジェクトを計画する(例:データ収集、モデルトレーニング、モデル評価、予測)。
  • BigQuery MLを使用してモデルを作成、トレーニング、評価するためのSQLを実行する。
  • BigQuery MLモデルを使用して推論を実行する。
  • Model Registryでモデルを整理する。

セクション3:データパイプラインオーケストレーション(試験の約18%)

3.1 シンプルなデータパイプラインの設計と実装。考慮事項には以下が含まれます。

  • ビジネス要件に基づいてデータ変換ツール(例:Dataproc、Dataflow、Cloud Data Fusion、Cloud Composer、Dataform)を選択する。
  • ELTとETLのユースケースを評価する。
  • 基本的な変換パイプラインを実装するために必要な製品を選択する。

3.2 基本的なデータ処理タスクのスケジュール、自動化、監視。考慮事項には以下が含まれます。

  • スケジュールされたクエリを作成および管理する(例:BigQuery、Cloud Scheduler、Cloud Composer)。
  • DataflowジョブUIを使用してDataflowパイプラインの進捗状況を監視する。
  • Cloud LoggingとCloud Monitoringでログを確認および分析する。
  • ビジネス要件に基づいてデータオーケストレーションソリューション(例:Cloud Composer、スケジュールされたクエリ、Dataproc Workflow Templates、Workflows)を選択する。
  • Pub/SubからBigQueryへのイベント駆動型データ取り込みのユースケースを特定する。
  • イベント駆動型パイプライン(Dataform、Dataflow、Cloud Functions、Cloud Run、Cloud Composer)でEventarcトリガーを使用する。

セクション4:データ管理(試験の約25%)

4.1 アクセス制御とガバナンスを設定する。考慮事項には以下が含まれます。

  • Identity and Access Management(IAM)を使用して最小特権アクセス原則を確立する。
  • データサービス(例:BigQuery、Cloud Storage)の基本的なロール、定義済みロール、権限を区別する。
  • Cloud Storageのアクセス制御方法を比較する(例:パブリックまたはプライベートアクセス、均一アクセス)。
  • Analytics Hubを使用してデータを共有するタイミングを判断する。

4.2 ライフサイクル管理を設定する。考慮事項には以下が含まれます。

  • データアクセス頻度と保持要件に基づいて適切なCloud Storageクラスを決定する。
  • 不要なデータを自動的に削除し、ストレージ費用を削減するために、一定期間後にオブジェクトを削除するルールを設定する(例:BigQuery、Cloud Storage)。
  • ビジネス要件に基づいてデータアーカイブのためのGoogle Cloudサービスを評価する。

4.3 Cloud StorageとCloud SQLのデータの高可用性と障害復旧戦略を特定する。考慮事項には以下が含まれます。

  • Googleが管理するサービスとして提供されるバックアップと復旧ソリューションを比較する。
  • レプリケーションを使用するタイミングを決定する。
  • プライマリおよびセカンダリデータストレージロケーションタイプ(例:リージョン、デュアルリージョン、マルチリージョン、ゾーン)をデータ冗長性のために区別する。

4.2 セキュリティ対策を適用し、データプライバシー規制へのコンプライアンスを確保する。考慮事項には以下が含まれます。

  • 顧客管理暗号鍵(CMEK)、顧客提供暗号鍵(CSEK)、およびGoogle管理暗号鍵(GMEK)のユースケースを特定する。
  • 暗号鍵を管理するためのCloud Key Management Service(Cloud KMS)の役割を理解する。
  • 転送中の暗号化と保存時の暗号化の違いを特定する。

試験対策

まず、Looker と Looker Studio のユースケース比較が入っていたので、Gemini にユースケースを比較してもらいました。

Looker と Looker Studio はどちらも Google Cloud のビジネスインテリジェンス (BI) および分析ツールですが、異なるユースケースに対応するように設計されています。以下に、主な違いをまとめた比較表を示します。

機能 Looker Looker Studio
対象ユーザー データアナリスト、データサイエンティスト、開発者 ビジネスユーザー、マーケター、経営陣
主なユースケース 詳細なデータ分析、複雑なデータモデリング、埋め込み分析、データガバナンス レポート作成、ダッシュボード作成、データの可視化、迅速なインサイトの取得
データソース 多様なデータベース、データウェアハウス、BigQueryとのシームレスな統合 Googleのサービス (Google Analytics、Google Adsなど) との容易な統合、スプレッドシート、CSVファイルなど
データモデリング LookML (独自のモデリング言語) を使用した強力なセマンティックモデリング データソースへの直接接続、ドラッグアンドドロップによる簡単な操作
データガバナンスとセキュリティ 強力なアクセス制御、データの整合性、バージョン管理 アクセス権の管理は可能だが、Lookerほど詳細な制御はできない
可視化とダッシュボード 高度なカスタマイズ可能なダッシュボードと可視化 直感的で使いやすいインターフェース、豊富なビジュアル化オプション
埋め込み分析 他のアプリケーションやウェブサイトへの埋め込みが容易 埋め込みオプションは限定的
コスト 一般的に Looker Studio より高価 無料で利用可能 (一部の機能は有料)

要約すると:

  • Looker: 複雑なデータ分析、データモデリング、データガバナンスが必要な場合、および開発者やデータアナリスト向けの強力なツールを求める場合に最適です。
  • Looker Studio: 迅速なレポート作成、ダッシュボード作成、データの可視化、およびビジネスユーザー向けの使いやすいインターフェースが必要な場合に最適です。

どちらのツールも強力な BI および分析機能を提供しますが、特定のニーズとユースケースに最適なツールを選択することが重要です。 例えば、マーケティングチームがウェブサイトのトラフィックを簡単に分析したい場合は Looker Studio が適しています。一方、データサイエンティストが複雑な顧客セグメンテーション分析を実行したい場合は Looker が適しています。

事前の最終チェックには、G-gen さんと Cloud Ace さんの Professional Data Engineer の試験対策を利用しました。
https://blog.g-gen.co.jp/entry/professional-data-engineer
https://cloud-ace.jp/column/detail473/

感想

そもそも、試験問題そのものについては共有禁止ですので、あくまでも感想です。

私が受けたときは 73問で、150分の長丁場をオンラインで受けたので、何より途中でトイレに行きたくて仕方が無かったが一番の感想だったりします。

まったく理解できない問題というのは少なかったですが、判断に迷う問題は多数ありました。

Looker と Looker Studio 関係の問題が 13% 程度ありましたので、ある程度 Looker について理解しておいたほうがいいと感じました。

Colab Enterprise 関係の問題も複数ありました、触りだけでも知っておくべきです。

SQL の内容について問われる問題も複数ありましたので、最低限の理解は必要と考えます。

SQL か Python かというような問題もあるので、文脈に従って回答を導きだす必要があります。

全体を通して、如何に手間なく、スピーディーに実現するのはどの方法かを問われることが多かったです。
そのため、やれるやれないだけでなく、容易さの把握や、質問背景を踏まえた回答が必要になります。

Google Cloud の推奨に従った方法を答えてというのは当然ながら多かったです。

Professional Data Engineer でよく出る、どの方法でデータ変換するべきかは、Associate Data Practitioner でも多数出ましたので、同様の勉強をしておくべきです。

何はともあれ、BigQuery に関係した問題が 7割近くあるので、BiqQuery の理解と連携関係は必須で押さえておく必要があります。

全体的に Professional Data Engineer よりも、実現方式として適しているのはどれかという問題が多く感じました。

Beta 試験受かっていますように!

Discussion