🎉

Next'23 でアナウンスされた Vertex AI の新機能

2023/09/01に公開

3日間に渡る Next 2023 が終わりました。各種メディアで報じられているように、Generative AI を活用したサービスの発表が多かったのですが、Vertex AI のアップデートも同時に発表されました。詳細な発表は後ほどなされると思いますが、ここでは個人的に気になったアップデートについて、それぞれ簡単に取り上げます。

  • Vertex Extension
  • Vertex Search
  • Vertex Feature Store
  • Dataplex が Vertex ML Metadata をサポート

なお、ドキュメントやサンプルの揃っていない中での速報であり、正確性については目を瞑っていただければと思います。

Vertex Extension

Vertex AI では Embeddings の活用が全面に押し出されるようになりました。

そのなかでもとくにエンジニア向けかと思われる機能がこの Vertex Extension です。Vertex Extension は機械学習モデルの出力 (Embedding) に基づいて、何らかの API を呼び出すことで、対話的にさまざまなサービスを連携できます。実際の様子は次のデモがイメージしやすいでしょう。

https://www.youtube.com/watch?v=lEUS3_Qjyjg&t=2736s

Vertex Extension はにもブログでも紹介されています

Vertex Search は企業内のデータについて、対話的な入力による検索を実現します。ブログポストにわかりやすいアニメーションがあるのでご確認いただければと思います。

内部的には LLM を用いた Embedding の生成と、それに基づく検索が基本となっています。このため、Embedding を取得できればマルチモーダルな検索、たとえばテキストを用いた画像検索 (「赤いワンピース」というテキストから、販売しているアイテムの画像から、赤色でワンピースのようなシルエットの画像をリストアップ) が期待できます。

日本語にも対応予定とのことなので期待しつつ待ちましょう。

https://twitter.com/kazunori_279/status/1697317339249914237?conversation=none

Vertex Feature Store

個人的にもっとも熱いアップデートだと思うのが Vertex Feature Store です。Vertex Feature Store は BigQuery で作成したテーブルを高速に読み出すための機能を提供します。

https://twitter.com/K_Ryuichirou/status/1697290320118165986?conversation=none

https://twitter.com/K_Ryuichirou/status/1697291202213937616?conversation=none

これまでもスケーラビリティの高い BigQuery で前処理を行って結果を保存して訓練時に利用することは可能でしたが、リアルタイムな推論を行う場合 BigQuery 上のデータをそのまま扱うことはレイテンシやコストの問題から現実的ではなく、どうしてもバッチ処理を選択せざるをえませんでした。このため、リアルタイムな推論が必要なリコメンドなどのタスクでは何らかのキャッシュを自前で構築する必要がありました。

Vertex Feature Store は BigQuery 上のデータに高速にアクセスする手段を提供するサービスです。このため、BigQuery 上で前処理を行ったデータを本番環境で再利用しやすくします。これによるメリットは大きく、一般に Feature Store に求められる次の要件の充足が期待できます。

  • チーム間での特徴量の共有
  • 訓練時に求められるスループットと推論時に求められるレイテンシの両立
  • 訓練時と推論時で同一のパイプラインを用いることによる Training / Serving Skew の低減

Vertex Feature Store についての詳細は Preview などで詳細が確認できるようになってから、改めて別の機会に記したいと思います。具体的にはこの記事を完成させようと思います

Dataplex が Vertex ML Metadata をサポート

サラッと発表されていたものの、データマネジメントと機械学習の統合に向けた大きな一歩だと思うのがこちらです。Dataplex が Vertex ML Metadata をサポートする予定であることがアナウンスされました。

Dataplex ではデータリニエージを管理できます。データの正確性や完全性を確認するためには、そのデータの収集方法や集計方法について追跡する必要がありますが、リニエージはこれを支援します。もともと BigQuery でのリニエージは提供されていましたが、Dataproc ではリニエージの提供範囲を広げつつあります。

このリニエージを一足先に提供していたのが Vertex ML Metadata です。こちらは Vertex Pipelines と統合されており、学習データはどのようなデータにどのような処理を施したものなのか、モデルはどの学習データを用いたものなのかを追跡できるようになっています。ドキュメントを確認してみると、Dataproc のリニエージと Vertex ML Metadata は同一の UI が用いられていることに気がつくでしょう。

これにより、Dataplex で提供されるデータマネジメントと、Vertex AI で提供される MLOps との統合がより容易になることが期待できます。専門性やプレーヤーの違いから別々に語られることの多いデータマネジメントと MLOps ですが、どちらもデータを活用して勝ちを出すプロセスであることに変わりはありませんし、DMBOK では機械学習にも言及しています。

個人的にはこの2つが別々に存在するよりは統合されているべきだと考えているため、このアップデートは素直に嬉しいです。

さいごに

Next では Generative AI が華々しく取り扱われていましたが、その傍らで Vertex AI や Dataplex といったデータを活用するサービスについてもアップデートがされていました。内容としても堅実なものです。これらのアップデートがリリースされた場合、MLOps において今まで実現に苦労していた箇所がクラウドサービスとして提供されることとなるため、今後の機械学習基盤のアーキテクチャの設計にも影響を与えることは確実でしょう。

一部のサービスは Preview としてアクセス可能になることもアナウンスされていたため、利用できるようになり次第検証したいと思います。世間の動向は Generative AI 一色ですが、その最中でも堅実な仕事をなした Google Cloud のエンジニアの方々に深い敬意を表します。

Discussion