🔥

Google Cloud Next '23 データ関連のアップデート

2023/08/30に公開

データエンジニア・アナリストチームのメンバーで Google Cloud Next '23 に参加しました。
速報として、データエンジニア・データアナリスト観点で気になったアップデートを紹介します。
※随時追記します。

変更履歴

日時 内容
2023/08/29 Day 1 の情報を記載しました。
2023/09/01 情報を追記しました。

前置き

  • 理解が怪しい部分があります。正確な情報はドキュメントをご参照ください。
    ※帰国後に時間をとって記事を加筆・修正する予定です。

BigQuery Studio

  • ※2023/8/30 時点では上記ドキュメントは日本語に翻訳されていません。言語選択で English を選択すると閲覧できます。
  • BigQuery コンソールで Colab Enterprise が利用可能になります。
    Colab Enterprise は BigQuery DataFrames(※後述)をサポートします。
  • Duet AI との統合により、BigQuery コンソール上で自然言語を元に SQL を生成可能になります(※後述)。
  • 感想
    • デモで、Colab Enterprise 上で実行した Jupyter Notebook について、実行ごとにリビジョンが残るような挙動がありました。
      Jupyter Notebook のバージョン管理に使えるかもしれません。

BigQuery DataFrames

  • Pandas DataFrame / scikit-learn 風のインターフェースで、データ加工・機械学習関連処理を記述できます。
    裏で SQL を生成し BigQuery で実行する仕組みのようです。
  • コードは GitHub に公開されていました。
    bqclient で BigQuery Client を生成し、
    _start_query で BigQuery にリクエストしているように見えます。
  • import bigframes.pandas as bpd のように Python パッケージとしてインポートします。
  • 感想
    • SQL で加工したデータを元に Python で機械学習モデルを作成する場合に
      一箇所でコードを管理でき、レビューが捗りそうです。
    • 特に探索的データ分析(EDA)に便利そうな印象を受けました。

Duet AI

  • Duet AI in Google Cloud から利用申請が可能です。
  • Duet AI in Google Cloud Preview で言及されています。
  • BigQuery
    • コメントを元に BigQuery で実行する SQL を生成できます(Write queries with Duet AI assistance)。
      逆に、SQL が何をしているか、自然言語で説明することもできるようです。
    • Google Cloud 上の UI だけでなく、Visual Studio Code 等での IDE でも利用可能になります(Duet AI in Google Cloud Preview)。
      Visual Studio Code では、拡張機能 Google Cloud Code をインストールすることで Duet AI を利用できます。
  • Looker Studio Pro
    • 自然言語での質問を元に、レポートにグラフを追加できます。
    • 自然言語での質問を元に、計算式を作成できます。
    • レポートを Google Slides に出力できます。各スライドに、各グラフと、各グラフの説明が出力されるようです。
      グラフ単位ではなく、複数のグラフを持つレポートを生成することも可能なようです。
  • Looker
    • What’s new for Looker and business intelligence at Next ‘23 で言及されています。
    • Looker には JSON 形式のデータを元に高度なグラフを作成できる Advanced Visualization editor という機能があります。
      Duet AI により、自然言語を元に Advanced Visualization Editor で指定する JSON データを生成できるようになります。
    • 自然言語を元に LookML 形式のコードを生成できます。
    • Tableau との接続が Preview、Power BI との接続が GA になりました。
  • Dataplex
    • 自然言語での質問を元に、Google Cloud 上のデータを検索することができます。
      また、メタデータや利用状況を元に、どんな質問をすればよいか、質問自体をレコメンドしてくれるようです。
      検索結果として、BigQuery Studio で実行できる SQL クエリを自動で生成する機能もあるようです。
  • 感想
    • SQL の説明を生成する機能は、他チームが作成した SQL が何をしているのか、ざっくり把握したいとき等に便利そうです。
    • Keynote でのデモでは、チャット風の UI 上で質問を送信すると、BigQuery のデータを元にしたグラフが生成されていました。
      ChatGPT Code Interpreter でのグラフ作成と近い印象です。
      また、作成したグラフの Google Slide へのエクスポートもできるようです。
    • Looker / Looker Studio Pro で利用できるようです。Looker Studio では利用できない点が少し残念です。
    • データを活用するメンバーが最初にアクセスする Web ページとして、BigQuery のコンソールではなく Dataplex を案内することで良いユーザー体験を提供できそうです。

Data Clean Rooms

  • 機密度の高いデータを共有する際に利用できる Data Clean Rooms が Public Preview になりました。
  • GROUP BY 句や JOIN 句に指定できるカラムを制限したり、差分プライバシーに対応しているようです。
  • デフォルトで生データのコピーができないように設定されています。
  • 感想
    • 食品メーカーと小売店でのデータ共有など、範囲を意識しつつもデータを共有したいケースで活用できそうです。
    • 個人的には、BI ツール等から Data Clean Rooms のデータにアクセスできるかが気になりました。
      BI ツールから接続できる場合、BI ツール側にはデータがコピーされてしまうため、
      厳密に保護したいデータの取り扱い等は難しくなりそうです。

Vertex AI

Dataplex

  • Data Profiling が GA になりました。
  • Automatic Data Quality が GA になりました。
  • 感想
    • Google Cloud Next '23 の数日前に BigQuery コンソール上にタブが表示された機能です。
    • Data Profiling では、カラムごとの統計値を確認できます。
      「このカラムってどんな値が入ってたっけ?」という時に、毎回 GROUP BY を打たなくて良くなるので便利そうです。
    • Automatic Data Quality では、各テーブルのデータがあらかじめ定めたルールを満たしているかを確認できます。
      すでに dbt を導入しているチームでは棲み分けを検討する必要がありそうです。

Cloud Logging

  • Summarize log entries with Duet AI assistance
    • Duet AI の組込により、ログの条件をプロンプトに入力するだけで promQL のコードを生成してくれます。
    • Cloud Logging に記録されたログについて Duet AI で要約を生成することが可能になります。
  • 感想
    • Cloud Logging のログを調査するとき、ログごとに JSON の構造が異なったり、
      結構辛い印象があるので、Duet AI の活用により原因調査が楽になりそうです。

全体を通して

※後日記載します。

Discussion