🐈‍⬛

Imagen にてマルチモーダルな埋め込みモデルが一般提供になりました

2023/10/05に公開

はじめに

こんにちは、クラウドエース データ ML ディビジョン所属の高橋です。

データ ML ディビジョンでは、Google Cloud が提供しているデータ領域のプロダクトについて、新規リリースをキャッチアップするための調査報告会を毎週実施しています。
新規リリースの中でも、特に重要と考えるリリースを記事としてまとめ、本ページのように公開しています。

今回紹介するリリースは、2023 年 8 月 9 日付で発表された Imagen にてマルチモーダルな埋め込みモデルが一般提供になったことについてです。当該リリースノートのリンクはこちらです。

Imagen とは Google が開発した画像生成 AI システムです。現在は Vertex AI で使用することができます。

マルチモーダルな埋め込みモデルの概要

マルチモーダルな埋め込みモデルは、入力をもとにして 1408 次元のベクトルを生成します。この入力には、画像データとテキストデータが組み合わされる場合があります。この生成されたベクトルを埋め込みベクトルと呼び、画像の分類などに使用可能です。

画像を入力として生成された画像埋め込みベクトルとテキストを入力として生成されたテキスト埋め込みベクトルは、同じ次元の同じ意味空間内に存在します。そのため、これらのベクトルは、テキストによる画像の検索、もしくは画像によるテキストの検索というユースケースで互換的に使用することができます。

制限

API には次の制限が適用されます。

  • プロジェクトごとの 1 分あたりの API リクエストの最大数は 120 です。
  • テキストの最大長は 32 トークン(約 32 語)です。入力が 32 トークンを超える場合、マルチモーダルな埋め込みモデルは内部で入力を短縮します。
  • 言語は英語です。
  • 画像サイズは 20 MB までです。ネットワーク遅延を回避するためには、20 MB よりも小さい画像を使用してください。さらに、マルチモーダルな埋め込みモデルは画像を 512 x 512 ピクセルの解像度に変更します。そのため、これよりも高解像度の画像を用意する必要はありません。

マルチモーダルな埋め込みモデルを使用する際の注意点

マルチモーダルな埋め込みモデルを使用する場合には、次の 3 点に注意する必要があります。

  1. ユースケースによっては、入力において出力を明確に指定する必要があります。例えば、単にネコではなく、ネコの写真またはネコというテキストと入力する必要があります。

  2. 生成した画像の類似性を測る指標として埋め込みベクトルの内積を用いる場合、固定の閾値を使用することは避けた方が良いです。なぜならば、埋め込みベクトルの内積は正規化された確率ではないからです。検索にはランキング学習(検索結果をあらかじめ定義した重要度に基づいて並べる手法)を、分類にはシグモイド関数を使いましょう。

  3. 埋め込みがテキストのみのユースケースの場合、既存の Vertex AI テキスト埋め込み API を使用することが推奨されています。詳しくはこちらを参照してください。

料金

この機能の料金は、入力が画像かテキストかによって変わります。

  • 画像を入力として埋め込みベクトルを生成する場合、1 画像の入力あたり 0.0001 米ドルです。
  • テキストを入力として埋め込みベクトルを生成する場合、1000 文字の入力あたり 0.0002 米ドルです。

おわりに

今回の記事では Imagen のマルチモーダルな埋め込みモデルを紹介しました。
これによって、AI による予測や分類の精度がさらに向上する可能性が期待できます。

関連記事

Discussion