🦆

Whiskが面白そう

に公開

なぜ作成したのか

  • 情シスSlackで見かけたWhiskが面白そうだったので調べてみる

参考

https://labs.google/fx/ja/tools/whisk
https://blog.google/technology/google-labs/whisk/

Whisk とは?

  • Whisk は Google Labs(fx)の 生成 AI 実験 の一つで、「画像を使って画像を作る」ことに特化した ビジュアル・アイデアスケッチツール です。
  • テキストプロンプトを長々と書かなくても、❶“Subject(題材)” ❷“Scene(背景)” ❸“Style(作風)” の 3 枠に画像をドラッグ&ドロップするだけで、AI がその“エッセンス”を読み取り、複数のリミックス画像を提案してくれます。

技術スタック

処理 役割 使用モデル
I2T(Image → Text) アップロード画像を詳細なキャプションに変換 Gemini マルチモーダル
T2I(Text → Image) キャプション+追加ガイダンスを最終プロンプト化し画像生成 Imagen 3
Animate(任意) 完成画像を数秒の動画に変換 Veo 2(Whisk Animate 機能)

使い方 3 ステップ

  1. Prepare

    • 画像をアップロード/テキストで簡易生成/「Roll the dice」で着想をもらう。
    • Gemini が裏側で自動キャプション化。
  2. Explore

    • Subject × Scene × Style を組み合わせてワンクリック生成。
    • 追加テキストで「帽子を青く」「パステル調に」など細かな指示も可。
  3. Refine / Diagnose

    • 気に入った案を微調整したり、生成に使われたプロンプトを確認・編集して再生成。

主な特徴

  • “Prompt‑less, Play‑more”
    • プロンプト学習ゼロでも高速にビジュアル・ブレスト。
  • エッセンス抽出
    • アップロード画像をそのままコピーせず、特徴点だけ抽出して新規生成。肖像が完全一致しない点は仕様。
  • 商用利用可
    • 生成物の著作権はユーザーに帰属(Google は所有権を主張しない)が、利用時は Labs 利用規約を遵守。
  • Whisk Animate
    • Google One AI Premium (約2,900 円/月) 登録者は月100本まで動画化が可能。

提供範囲・要件

項目 内容
対象年齢 18 歳以上
利用可能地域 Google Labs 対応国 (英国を除く)
Animate 対応国 日本・米国など 70 超の国/地域(英国除く)
ブラウザ 最新版 Chrome/Edge/Firefox/Safari 推奨
料金 画像生成は無料(動画生成は Google One AI Premium が必要)

他の fx ツールとの違い

ツール 入力手段 生成形式 代表モデル 想定シーン
Whisk 画像(+短文) 静止画 Gemini+Imagen 3 ラフスケッチやキャラクターアイデア
ImageFX テキスト 静止画 Imagen 3 従来型のプロンプト生成
VideoFX テキスト/画像 動画 Veo 2 ストーリーボードやモーション試作

活用アイデア

  • UI/UX モック作成
    • 手描きワイヤを Subject、既存アプリ SS を Style にして即席デザイン案を比較。
  • プロダクト試作品
    • Scene に 3D モック、Style に素材サンプルを入れ、質感や配色を確認。
  • 教育・ワークショップ
    • Prompt 構文を教えずにビジュアル思考を促進。

注意点とベストプラクティス

  1. 個人情報を含む写真は避ける:AI が特徴点を保持する可能性があるため、機密素材はマスク処理を推奨。
  2. 権利確認:他者のイラストや商標をアップロードする場合はライセンスを確認。
  3. 期待値調整:Pixel‑perfect 編集ではなく “大量試行 → お気に入りを採用” が前提のラフ制作ツール。
  4. プロンプト編集を活用:生成結果がズレたら、[Prompt] ボタンで裏側のテキストを直接修正すると安定。

まとめ

  • Whisk は「画像で発想し、画像で試す」新しい発想支援ツールです。
  • Gemini の視覚理解と Imagen 3 の高精細生成を組み合わせ、Subject・Scene・Style の 3 クリックで多様なビジュアルアイデアを瞬時に得られます。
  • テキストプロンプトに不慣れなチームや、短時間で大量の方向性を見たいクリエイターに最適な実験サービスと言えるでしょう。

所感

  • すごく簡単にイメージを加工したり動画にしたりできるツール
    • とあるイラストを基に「ラマシンのLongMaに乗ってる様子にして」って言ったらそういう感じになった
  • 簡単な分、著作権の問題がすごく問題になりそう
GitHubで編集を提案

Discussion