🦆

Whiskが面白そう

2025/04/22に公開

 なぜ作成したのか情シスSlackで見かけたWhiskが面白そうだったので調べてみる

 参考https://labs.google/fx/ja/tools/whisk

https://blog.google/technology/google-labs/whisk/

 Whisk とは？Whisk は Google Labs（fx）の 生成 AI 実験 の一つで、「画像を使って画像を作る」ことに特化した ビジュアル・アイデアスケッチツール です。
テキストプロンプトを長々と書かなくても、❶“Subject（題材）” ❷“Scene（背景）” ❸“Style（作風）” の 3 枠に画像をドラッグ＆ドロップするだけで、AI がその“エッセンス”を読み取り、複数のリミックス画像を提案してくれます。

 技術スタック

処理
役割
使用モデル


I2T（Image → Text）
アップロード画像を詳細なキャプションに変換

Gemini マルチモーダル

T2I（Text → Image）
キャプション＋追加ガイダンスを最終プロンプト化し画像生成
Imagen 3

Animate（任意）
完成画像を数秒の動画に変換

Veo 2（Whisk Animate 機能）


 使い方 3 ステップPrepare
画像をアップロード／テキストで簡易生成／「Roll the dice」で着想をもらう。
Gemini が裏側で自動キャプション化。
Explore
Subject × Scene × Style を組み合わせてワンクリック生成。
追加テキストで「帽子を青く」「パステル調に」など細かな指示も可。
Refine / Diagnose
気に入った案を微調整したり、生成に使われたプロンプトを確認・編集して再生成。

 主な特徴
“Prompt‑less, Play‑more”：
プロンプト学習ゼロでも高速にビジュアル・ブレスト。


エッセンス抽出：
アップロード画像をそのままコピーせず、特徴点だけ抽出して新規生成。肖像が完全一致しない点は仕様。


商用利用可：
生成物の著作権はユーザーに帰属（Google は所有権を主張しない）が、利用時は Labs 利用規約を遵守。


Whisk Animate：
Google One AI Premium (約2,900 円/月) 登録者は月100本まで動画化が可能。


 提供範囲・要件

項目
内容


対象年齢
18 歳以上

利用可能地域
Google Labs 対応国 （英国を除く）


Animate 対応国
日本・米国など 70 超の国/地域（英国除く）

ブラウザ
最新版 Chrome/Edge/Firefox/Safari 推奨

料金
画像生成は無料（動画生成は Google One AI Premium が必要）


 他の fx ツールとの違い

ツール
入力手段
生成形式
代表モデル
想定シーン


Whisk
画像（＋短文）
静止画
Gemini＋Imagen 3
ラフスケッチやキャラクターアイデア

ImageFX
テキスト
静止画
Imagen 3
従来型のプロンプト生成

VideoFX
テキスト／画像
動画
Veo 2
ストーリーボードやモーション試作


 活用アイデア
UI/UX モック作成：
手描きワイヤを Subject、既存アプリ SS を Style にして即席デザイン案を比較。


プロダクト試作品：
Scene に 3D モック、Style に素材サンプルを入れ、質感や配色を確認。


教育・ワークショップ：
Prompt 構文を教えずにビジュアル思考を促進。


 注意点とベストプラクティス
個人情報を含む写真は避ける：AI が特徴点を保持する可能性があるため、機密素材はマスク処理を推奨。

権利確認：他者のイラストや商標をアップロードする場合はライセンスを確認。

期待値調整：Pixel‑perfect 編集ではなく “大量試行 → お気に入りを採用” が前提のラフ制作ツール。

プロンプト編集を活用：生成結果がズレたら、[Prompt] ボタンで裏側のテキストを直接修正すると安定。
まとめ
Whisk は「画像で発想し、画像で試す」新しい発想支援ツールです。
Gemini の視覚理解と Imagen 3 の高精細生成を組み合わせ、Subject・Scene・Style の 3 クリックで多様なビジュアルアイデアを瞬時に得られます。
テキストプロンプトに不慣れなチームや、短時間で大量の方向性を見たいクリエイターに最適な実験サービスと言えるでしょう。

 所感すごく簡単にイメージを加工したり動画にしたりできるツール
とあるイラストを基に「ラマシンのLongMaに乗ってる様子にして」って言ったらそういう感じになった



簡単な分、著作権の問題がすごく問題になりそう

処理	役割	使用モデル
I2T（Image → Text）	アップロード画像を詳細なキャプションに変換	Gemini マルチモーダル
T2I（Text → Image）	キャプション＋追加ガイダンスを最終プロンプト化し画像生成	Imagen 3
Animate（任意）	完成画像を数秒の動画に変換	Veo 2（Whisk Animate 機能）

項目	内容
対象年齢	18 歳以上
利用可能地域	Google Labs 対応国（英国を除く）
Animate 対応国	日本・米国など 70 超の国/地域（英国除く）
ブラウザ	最新版 Chrome/Edge/Firefox/Safari 推奨
料金	画像生成は無料（動画生成は Google One AI Premium が必要）

ツール	入力手段	生成形式	代表モデル	想定シーン
Whisk	画像（＋短文）	静止画	Gemini＋Imagen 3	ラフスケッチやキャラクターアイデア
ImageFX	テキスト	静止画	Imagen 3	従来型のプロンプト生成
VideoFX	テキスト／画像	動画	Veo 2	ストーリーボードやモーション試作

GitHubで編集を提案

なぜ作成したのか

参考

Whisk とは？

技術スタック

使い方 3 ステップ

主な特徴

提供範囲・要件

他の fx ツールとの違い

活用アイデア

注意点とベストプラクティス

所感

Discussion