🦆
Whiskが面白そう
なぜ作成したのか
- 情シスSlackで見かけたWhiskが面白そうだったので調べてみる
参考
Whisk とは?
- Whisk は Google Labs(fx)の 生成 AI 実験 の一つで、「画像を使って画像を作る」ことに特化した ビジュアル・アイデアスケッチツール です。
- テキストプロンプトを長々と書かなくても、❶“Subject(題材)” ❷“Scene(背景)” ❸“Style(作風)” の 3 枠に画像をドラッグ&ドロップするだけで、AI がその“エッセンス”を読み取り、複数のリミックス画像を提案してくれます。
技術スタック
処理 | 役割 | 使用モデル |
---|---|---|
I2T(Image → Text) | アップロード画像を詳細なキャプションに変換 | Gemini マルチモーダル |
T2I(Text → Image) | キャプション+追加ガイダンスを最終プロンプト化し画像生成 | Imagen 3 |
Animate(任意) | 完成画像を数秒の動画に変換 | Veo 2(Whisk Animate 機能) |
使い方 3 ステップ
-
Prepare
- 画像をアップロード/テキストで簡易生成/「Roll the dice」で着想をもらう。
- Gemini が裏側で自動キャプション化。
-
Explore
- Subject × Scene × Style を組み合わせてワンクリック生成。
- 追加テキストで「帽子を青く」「パステル調に」など細かな指示も可。
-
Refine / Diagnose
- 気に入った案を微調整したり、生成に使われたプロンプトを確認・編集して再生成。
主な特徴
-
“Prompt‑less, Play‑more”:
- プロンプト学習ゼロでも高速にビジュアル・ブレスト。
-
エッセンス抽出:
- アップロード画像をそのままコピーせず、特徴点だけ抽出して新規生成。肖像が完全一致しない点は仕様。
-
商用利用可:
- 生成物の著作権はユーザーに帰属(Google は所有権を主張しない)が、利用時は Labs 利用規約を遵守。
-
Whisk Animate:
- Google One AI Premium (約2,900 円/月) 登録者は月100本まで動画化が可能。
提供範囲・要件
項目 | 内容 |
---|---|
対象年齢 | 18 歳以上 |
利用可能地域 | Google Labs 対応国 (英国を除く) |
Animate 対応国 | 日本・米国など 70 超の国/地域(英国除く) |
ブラウザ | 最新版 Chrome/Edge/Firefox/Safari 推奨 |
料金 | 画像生成は無料(動画生成は Google One AI Premium が必要) |
他の fx ツールとの違い
ツール | 入力手段 | 生成形式 | 代表モデル | 想定シーン |
---|---|---|---|---|
Whisk | 画像(+短文) | 静止画 | Gemini+Imagen 3 | ラフスケッチやキャラクターアイデア |
ImageFX | テキスト | 静止画 | Imagen 3 | 従来型のプロンプト生成 |
VideoFX | テキスト/画像 | 動画 | Veo 2 | ストーリーボードやモーション試作 |
活用アイデア
-
UI/UX モック作成:
- 手描きワイヤを Subject、既存アプリ SS を Style にして即席デザイン案を比較。
-
プロダクト試作品:
- Scene に 3D モック、Style に素材サンプルを入れ、質感や配色を確認。
-
教育・ワークショップ:
- Prompt 構文を教えずにビジュアル思考を促進。
注意点とベストプラクティス
- 個人情報を含む写真は避ける:AI が特徴点を保持する可能性があるため、機密素材はマスク処理を推奨。
- 権利確認:他者のイラストや商標をアップロードする場合はライセンスを確認。
- 期待値調整:Pixel‑perfect 編集ではなく “大量試行 → お気に入りを採用” が前提のラフ制作ツール。
- プロンプト編集を活用:生成結果がズレたら、[Prompt] ボタンで裏側のテキストを直接修正すると安定。
まとめ
- Whisk は「画像で発想し、画像で試す」新しい発想支援ツールです。
- Gemini の視覚理解と Imagen 3 の高精細生成を組み合わせ、Subject・Scene・Style の 3 クリックで多様なビジュアルアイデアを瞬時に得られます。
- テキストプロンプトに不慣れなチームや、短時間で大量の方向性を見たいクリエイターに最適な実験サービスと言えるでしょう。
所感
- すごく簡単にイメージを加工したり動画にしたりできるツール
- とあるイラストを基に「ラマシンのLongMaに乗ってる様子にして」って言ったらそういう感じになった
- とあるイラストを基に「ラマシンのLongMaに乗ってる様子にして」って言ったらそういう感じになった
- 簡単な分、著作権の問題がすごく問題になりそう
Discussion