📑

Google Cloud UPDATES まとめ (DA/ML 編: 2023/10/1 - 2024/1/15 +α)

2024/02/29に公開

本記事では、2024/2/26 16:30-18:00 に行われた、Google Cloud UPDATES 2024 Q1 DA/ML 編の内容を抜粋して紹介していきます。
今回のカバー範囲は、2023/10/1 - 2024/1/15 のアップデート内容 + α です。

Google Cloud UPDATES とは

まとめブログは初回なのでイベントの紹介をしておきます。
このイベントは、2021年に Google Cloud Japan の有志で始めたイベントです。四半期に2回、テーマを分けて開催しており (データ分析/ML 編、Compute/DB 編)、Google Cloud のプリセールス エンジニアが、製品アップデートのイチオシを紹介していきます。

クラウド界隈は非常にアップデートが激しいです。プロダクトも日々増えてくる中、「1年前できなかったことが、気づいたら簡単にできるようになっていた」というのも珍しくありません。
そんな中、日々のアップデートに溺れないよう、まとめてアップデートの振り返りを行いつつ、不明点があればその場で質問して解決し、すぐにユーザが新機能に触れられるようにしていきたい、と思いを基に始めたイベントが Google Cloud UPDATES です。

録画や資料も公開されているので、内容に興味がある方は、是非イベントページを覗いて見てください。
また、Google Cloud UPDATES は、毎回生放送で、Google Meet で行っています。視聴者は Meet に直接参加し、ライブ QA もできるので、興味のある方は是非リアルタイムでも参加して見てください:)

では早速今回のまとめに入っていきます。

BigQuery 関連の UPDATES

BigQuery のリモートモデルの拡充

BigQuery で非構造化データを扱えるようになってきており、その一環でのアップデートが多く見られました。

Document AI をサポート (Preview)
請求書などの画像データに、BigQuery の Query を使ってアクセスし、必要な情報を抽出して結果に保存することができるようになりました

Speech-to-Text への対応 (Preview)
コールセンターなどでの音声データなどを、別で API などを叩いてアクセスするのではなく、BigQuery にデータをいれ、一括で処理ができるようになりました。データはオブジェクト テーブルの形式で保存します。

LLM への対応 (GA) ★ スピーカーイチオシ

Vertex AI を別途使うのではなく、BigQuery から LLM を直接呼び出せるようになりました。これにより、BigQuery に保存しているデータの利用や、BigQuery に結果を保存する際に、わざわざデータを移動することなく実施できます。
使い方は BigQuery の ML 機能と同様です。
ただし、LLM の処理にはある程度の時間がかかるため、普段の BigQuery の Query 処理に比べると、処理に時間がかかる点には注意が必要です。

BigQuery の管理機能の強化

管理リソース チャートで、リソース使用率グラフをプロジェクト レベルで確認可能に (Preview)

・INFORMATION_SCHEMA ビューで TABLE_STORAGE_USAGE_TIMELINE ビュー / TABLE_STORAGE_USAGE_TIMELINE_BY_ORGANIZATION ビューに対応 (Preview)
これによりテーブル単位での利用状況を確認できるようになりました。

Operational Health 管理リソース チャートの対応 (Preview)
スロットの使用状況、ジョブの同時実行数、エラー、その他メトリックなどが確認可能に。過去に問題になった SQL などを抽出し、対応するケースなどに役立ちます。

Data Pipeline 関連の UPDATES

参加者にアンケートをとったところ、Data Fusion, Data Flow, Dataform はそれぞれ同数程度の利用者がいました。

Dataform

・Terraform でアクセス管理が可能に (GA)
複数レポジトリを作った際のアクセス管理を、Terraform で行えるようになりました。

・コミット前後で diff が確認が可能に (GA)
Dataform 上で diff が表示されるようになりました (添付画像参照)

・Dataform 上でタブを活用し、複数の sqlx を編集できるようになった (GA)
地味なアップデートだが、開発体験が上がった。

Dataflow

・プロジェクトレベルでモニタリングが可能に(GA)
システム遅延や、CPU クォータ超過エラーなど、今まではジョブレベルでのみ可能だったが、プロジェクト横断でできるようになりました。

・ジョブのコストモニタリングに対応 (GA)
Dataflow の見積もりは、机上ではなかなか難しい。この機能を使うことで、ジョブごとのコストをより正確に推定できるようになったため、開発をしながらコストへの解像度をより高めていくことができるようになった

Data Fusion

・GitHub を用いた pipeline のソース管理 (GA)
GitHub に構成データを push し、構成を実環境に反映できるようになったため、コードによる構成管理がより実現しやすくなりました。

・Private Service Connect への対応 (Preview) ★スピーカーイチオシ
Private IP をもつ Data Fusion を利用するうえで必要な様々な設定が簡易化されるようになりました。エンタープライズで利用する場合に、特に重要なアップデートでした。

Pub/Sub

・BigQuery Subscription CDC が対応 (Preview)
今までは、単純な INSERT はできたが、UPDATE や DELETE ができませんでした。_CHANGE_TYPE という疑似列の中に、DELETE / UPSERT などを記載することで、INSERT 以外も実現できるようになりました。

・Perse JSON メッセージ Schema が対応 (GA)
JSON データを BigQuery に反映することは今までもできましたが、一つの列に JSON データとして入る仕組みでした。
この機能により、JSON ファイルを Perse して BigQuery 側に反映できるようになりました。

AI/ML 関連の UPDATES

Vertex AI モデル系アップデート (★スピーカーイチオシ)

・PaLM 2 で 新モデル Unicorn が登場 (GA)
従来よりもモデルサイズが大きいため、text-bison などと比べて応答品質と推論能力が向上

・その他 Gemini 系のモデルやその他も拡充 (添付画像参照)

・Model Garden でその他も様々なモデルを提供

その他 LLM 系アップデート

Grounding 機能

・text-bison / chat-bison から Grounding が利用可能に (GA)
上記の LLM が、Vertex AI Search に登録したデータストアのデータに基づいて回答を返すことができるようになりました (グラウンディングイメージは添付画像参照)

・(イベント後追記) Gemini も対応 (Preview)

・(質問) BigQuery から Grounding された LLM を呼び出しすることは可能か?
リモートモデルでは現状はできないため、Remote Functions 経由でモデルを呼び出すなどで対応する必要があります。

蒸留機能

LLM のモデルが大きくなるほど一般的に性能は高くなりますが、実運用を踏まえると、レイテンシーやコストの観点で大きなモデルを使うことが現実的でない可能性もあります。
蒸留機能は、大きなモデルの回答を基に、小さなモデルに学習をさせる機能です。これにより例えば、"Unicorn だと処理できたけど Bison だと処理できなかった特定のタスク" を Bison でもできるようにすることができます。

Vertex AI Search and Conversation

・Vertex AI Search で、抽出回答に日本語が対応 (Preview)
・Vertex AI Search の要約作成に、Gemini を利用可能に (Preview)

・(質問) Vertex AI Search で複数データソースを選べるか?
Blended Search(Preview) を利用することで実現可能です

終わりに

Google Cloud UPDATES 2024 Q1 DA/ML 編 のイベントのまとめブログを書きました。ブログで取り上げたのは一部なので、是非録画や資料も活用ください。
またイベント本体もオンラインで自由に参加できますので、是非一度、登録して参加してみてください!
次回は 3/18 16:30 - 18:00 で Compute / Database 編を開催予定です!

Google Cloud Japan

Discussion