🕶️

画像生成AI「Whisk」をさわってみる

ししまる

2025/02/20に公開

 はじめに2025年2月12日にGoogleが試験運用を開始した画像生成AI「Whisk」についてまとめてみます。

画像同士を掛け合わせて新たな画像を生成するというアプローチが新鮮です。

 Whiskhttps://labs.google/fx/ja/tools/whisk

 google公式Bloghttps://blog.google/intl/ja-jp/company-news/technology/whisk/

 概要
 主な特徴
画像プロンプト
Whiskの最大の特徴は、テキストによる指示だけでなく、既存の画像をプロンプトとして利用できる点です。これにより、イメージに近い画像を基に、より具体的な指示を出すことが可能になります。

組み合わせ
モデル、シーン、スタイルのそれぞれに好みの画像を入力し、それらを組み合わせて新しい画像を生成できます。

GeminiとImagen3
GoogleのAIモデル「Gemini」が入力画像の詳細なキャプションを自動生成し、そのキャプションを最新の画像生成モデル「Imagen 3」に入力して、新しい画像を生成します。

多様な表現
入力画像の要素を組み合わせることで、多様な表現の画像を生成できます。

試験運用
Whiskはまだ試験運用段階であり、今後の機能追加や改善が期待されます。

 仕組み
画像入力
生成したい画像に近い既存の画像をWhiskにUploadします。

キャプション生成
Geminiが入力画像の詳細なキャプションを自動生成します。

画像生成
Imagen3がキャプションに基づいて新しい画像を生成します。

結果確認
ユーザーは生成された画像を確認し、必要に応じてプロンプトを調整します。

編集も可能

 商用利用について!Whiskはまだ試験運用段階であり、商用利用に関する明確な規定は公表されていません。
しかし、Googleの他の画像生成AIサービス（Imagenなど）では、生成された画像の商用利用が許可されている場合が多く、Whiskでも同様の扱いになる可能性が高いと考えられます。

 注意点
生成される画像は入力画像の完全な複製ではありません。 特徴を抽出して新しい組み合わせを作成するため、予期したものと異なる結果になる可能性があります。
試験運用段階であるため、今後の仕様変更やサービス終了の可能性があります。

 さいごにWhiskは、画像プロンプトの組み合わせという新しいアプローチにより、

より直感的で創造的な画像生成体験を提供することが期待され、

画像生成AIの新たな可能性を示す興味深いサービスだと感じました。

（Imagen3の進化はすごいですね）

合同会社カメレオンミーム Tech BlogPublication

chameleonmeme.com/ ビジネスのすべての工程を自分たちの手で行い、気の合う仲間と楽しく仕事をすることで熱中するためにチームをスタートしました。お仕事のご相談・お誘いはお気軽にお問い合わせください。コーポレートサイトのWEBフォームから随時受け付けております🙆

はじめに

Whisk

google公式Blog

概要

主な特徴

仕組み

商用利用について

注意点

さいごに

Discussion