🔥
Google Cloud Next '23 データ関連のアップデート
データエンジニア・アナリストチームのメンバーで Google Cloud Next '23 に参加しました。
速報として、データエンジニア・データアナリスト観点で気になったアップデートを紹介します。
※随時追記します。
変更履歴
日時 | 内容 |
---|---|
2023/08/29 | Day 1 の情報を記載しました。 |
2023/09/01 | 情報を追記しました。 |
前置き
- 理解が怪しい部分があります。正確な情報はドキュメントをご参照ください。
※帰国後に時間をとって記事を加筆・修正する予定です。
BigQuery Studio
- ※2023/8/30 時点では上記ドキュメントは日本語に翻訳されていません。言語選択で English を選択すると閲覧できます。
- BigQuery コンソールで Colab Enterprise が利用可能になります。
Colab Enterprise は BigQuery DataFrames(※後述)をサポートします。 - Duet AI との統合により、BigQuery コンソール上で自然言語を元に SQL を生成可能になります(※後述)。
- 感想
- デモで、Colab Enterprise 上で実行した Jupyter Notebook について、実行ごとにリビジョンが残るような挙動がありました。
Jupyter Notebook のバージョン管理に使えるかもしれません。
- デモで、Colab Enterprise 上で実行した Jupyter Notebook について、実行ごとにリビジョンが残るような挙動がありました。
BigQuery DataFrames
- Pandas DataFrame / scikit-learn 風のインターフェースで、データ加工・機械学習関連処理を記述できます。
裏で SQL を生成し BigQuery で実行する仕組みのようです。 - コードは GitHub に公開されていました。
bqclient で BigQuery Client を生成し、
_start_query で BigQuery にリクエストしているように見えます。 -
import bigframes.pandas as bpd
のように Python パッケージとしてインポートします。 - 感想
- SQL で加工したデータを元に Python で機械学習モデルを作成する場合に
一箇所でコードを管理でき、レビューが捗りそうです。 - 特に探索的データ分析(EDA)に便利そうな印象を受けました。
- SQL で加工したデータを元に Python で機械学習モデルを作成する場合に
Duet AI
- Duet AI in Google Cloud から利用申請が可能です。
- Duet AI in Google Cloud Preview で言及されています。
- BigQuery
- コメントを元に BigQuery で実行する SQL を生成できます(Write queries with Duet AI assistance)。
逆に、SQL が何をしているか、自然言語で説明することもできるようです。 - Google Cloud 上の UI だけでなく、Visual Studio Code 等での IDE でも利用可能になります(Duet AI in Google Cloud Preview)。
Visual Studio Code では、拡張機能 Google Cloud Code をインストールすることで Duet AI を利用できます。
- コメントを元に BigQuery で実行する SQL を生成できます(Write queries with Duet AI assistance)。
- Looker Studio Pro
- 自然言語での質問を元に、レポートにグラフを追加できます。
- 自然言語での質問を元に、計算式を作成できます。
- レポートを Google Slides に出力できます。各スライドに、各グラフと、各グラフの説明が出力されるようです。
グラフ単位ではなく、複数のグラフを持つレポートを生成することも可能なようです。
- Looker
- What’s new for Looker and business intelligence at Next ‘23 で言及されています。
- Looker には JSON 形式のデータを元に高度なグラフを作成できる Advanced Visualization editor という機能があります。
Duet AI により、自然言語を元に Advanced Visualization Editor で指定する JSON データを生成できるようになります。 - 自然言語を元に LookML 形式のコードを生成できます。
- Tableau との接続が Preview、Power BI との接続が GA になりました。
- Dataplex
- 自然言語での質問を元に、Google Cloud 上のデータを検索することができます。
また、メタデータや利用状況を元に、どんな質問をすればよいか、質問自体をレコメンドしてくれるようです。
検索結果として、BigQuery Studio で実行できる SQL クエリを自動で生成する機能もあるようです。
- 自然言語での質問を元に、Google Cloud 上のデータを検索することができます。
- 感想
- SQL の説明を生成する機能は、他チームが作成した SQL が何をしているのか、ざっくり把握したいとき等に便利そうです。
- Keynote でのデモでは、チャット風の UI 上で質問を送信すると、BigQuery のデータを元にしたグラフが生成されていました。
ChatGPT Code Interpreter でのグラフ作成と近い印象です。
また、作成したグラフの Google Slide へのエクスポートもできるようです。 - Looker / Looker Studio Pro で利用できるようです。Looker Studio では利用できない点が少し残念です。
- データを活用するメンバーが最初にアクセスする Web ページとして、BigQuery のコンソールではなく Dataplex を案内することで良いユーザー体験を提供できそうです。
Data Clean Rooms
- 機密度の高いデータを共有する際に利用できる Data Clean Rooms が Public Preview になりました。
- GROUP BY 句や JOIN 句に指定できるカラムを制限したり、差分プライバシーに対応しているようです。
- デフォルトで生データのコピーができないように設定されています。
- 感想
- 食品メーカーと小売店でのデータ共有など、範囲を意識しつつもデータを共有したいケースで活用できそうです。
- 個人的には、BI ツール等から Data Clean Rooms のデータにアクセスできるかが気になりました。
BI ツールから接続できる場合、BI ツール側にはデータがコピーされてしまうため、
厳密に保護したいデータの取り扱い等は難しくなりそうです。
Vertex AI
- Vertex AI Search and Conversation is now generally available
- 感想
- BigQuery や他データソースのデータを使ったチャットボットを GUI で作成できる、と理解しました。
Dataplex
- Data Profiling が GA になりました。
- Automatic Data Quality が GA になりました。
- 感想
- Google Cloud Next '23 の数日前に BigQuery コンソール上にタブが表示された機能です。
- Data Profiling では、カラムごとの統計値を確認できます。
「このカラムってどんな値が入ってたっけ?」という時に、毎回 GROUP BY を打たなくて良くなるので便利そうです。 - Automatic Data Quality では、各テーブルのデータがあらかじめ定めたルールを満たしているかを確認できます。
すでに dbt を導入しているチームでは棲み分けを検討する必要がありそうです。
Cloud Logging
-
Summarize log entries with Duet AI assistance
- Duet AI の組込により、ログの条件をプロンプトに入力するだけで promQL のコードを生成してくれます。
- Cloud Logging に記録されたログについて Duet AI で要約を生成することが可能になります。
- 感想
- Cloud Logging のログを調査するとき、ログごとに JSON の構造が異なったり、
結構辛い印象があるので、Duet AI の活用により原因調査が楽になりそうです。
- Cloud Logging のログを調査するとき、ログごとに JSON の構造が異なったり、
全体を通して
※後日記載します。
Discussion