Zenn
🕶️

画像生成AI「Whisk」をさわってみる

2025/02/20に公開
1

はじめに

2025年2月12日にGoogleが試験運用を開始した画像生成AI「Whisk」についてまとめてみます。
画像同士を掛け合わせて新たな画像を生成するというアプローチが新鮮です。

Whisk

https://labs.google/fx/ja/tools/whisk

google公式Blog

https://blog.google/intl/ja-jp/company-news/technology/whisk/

概要

主な特徴

  • 画像プロンプト
    • Whiskの最大の特徴は、テキストによる指示だけでなく、既存の画像をプロンプトとして利用できる点です。これにより、イメージに近い画像を基に、より具体的な指示を出すことが可能になります。
  • 組み合わせ
    • モデル、シーン、スタイルのそれぞれに好みの画像を入力し、それらを組み合わせて新しい画像を生成できます。
  • GeminiとImagen3
    • GoogleのAIモデル「Gemini」が入力画像の詳細なキャプションを自動生成し、そのキャプションを最新の画像生成モデル「Imagen 3」に入力して、新しい画像を生成します。
  • 多様な表現
    • 入力画像の要素を組み合わせることで、多様な表現の画像を生成できます。
  • 試験運用
    • Whiskはまだ試験運用段階であり、今後の機能追加や改善が期待されます。

仕組み

  1. 画像入力
    • 生成したい画像に近い既存の画像をWhiskにUploadします。
  2. キャプション生成
    • Geminiが入力画像の詳細なキャプションを自動生成します。
  3. 画像生成
    • Imagen3がキャプションに基づいて新しい画像を生成します。
  4. 結果確認
    • ユーザーは生成された画像を確認し、必要に応じてプロンプトを調整します。

編集も可能

商用利用について

しかし、Googleの他の画像生成AIサービス(Imagenなど)では、生成された画像の商用利用が許可されている場合が多く、Whiskでも同様の扱いになる可能性が高いと考えられます。

注意点

  • 生成される画像は入力画像の完全な複製ではありません。 特徴を抽出して新しい組み合わせを作成するため、予期したものと異なる結果になる可能性があります。
  • 試験運用段階であるため、今後の仕様変更やサービス終了の可能性があります。

さいごに

Whiskは、画像プロンプトの組み合わせという新しいアプローチにより、
より直感的で創造的な画像生成体験を提供することが期待され、
画像生成AIの新たな可能性を示す興味深いサービスだと感じました。
(Imagen3の進化はすごいですね)

1
合同会社カメレオンミーム Tech Blog

Discussion

ログインするとコメントできます