🦔

「Nano Banana 2」を触ってみた話──MV制作の現場目線で

に公開

先日、クライアント先からの帰り道に「Nano Banana 2 が出た」とニュースを見て、駅のホームで思わず立ち止まってしまいました。前のバージョンも MV のコンセプトすり合わせで使っていたので、その夜スタジオに戻って、レコーディングの合間に一通り試してみました。

ざっくりどんなモデルなのか

Google DeepMind が出した最新の画像生成・編集モデルです。技術名は Gemini 3.1 Flash Image。

立ち位置が面白くて、上位モデル「Nano Banana Pro」の賢さや細かい制御能力を、Flash 系モデルの速さに乗せた設計になっています。「速いけど雑」でも「賢いけど遅い」でもなくて、その両方を一度にやろうとしているモデル、という感じです。

触ってみてよかったところ

スピードが、ちゃんと「制作で使える」レベル

個人的にはここが一番効きました。打ち合わせ中にプロンプトを叩いて、相手が話している間に画像が出てくる感覚。会議のテンポが切れません。

文字の出力が、ちゃんと読める

MV のサムネとかジャケット案のラフを出すとき、タイトル文字を入れた状態で雰囲気を見たいケースがあって。これまでは崩れがちで貼り直していたんですが、Nano Banana 2 は英語も日本語も思ったよりちゃんと出ます。画像内の翻訳・ローカライズもできるので、海外向け素材で助かりそうです。

キャラの一貫性が、ストーリーボード作りで効く

公式によると、1つのワークフロー内で最大5人のキャラの見た目と、最大14個のオブジェクトの再現性を保てるとのこと。同じ主人公を駅 → 部屋 → 屋上と移動させても、顔や服装の崩れがかなり減りました。前は1枚ごとに別人になっていたのが、ほぼ不要になりました。

制作フローに入れてみると

これまで MV のコンセプトすり合わせは、Midjourney で雰囲気を出して打ち合わせ、OK が出たら Runway で短いシーン素材、という流れでした。

Nano Banana 2 を入れると、その場で修正版を出して方向性を固められる。先日、「夜の海、でも怖くない感じ。少し懐かしい光が欲しい」というオーダーが来て、その場で3パターン出して、5分以内に方向が決まりました。前なら「次の打ち合わせまでに数案作ってきます」と持ち帰っていた工程です。

気になった点も書いておきます

複雑な画面構成、たとえば楽器を演奏する人物のように手と楽器の位置関係が込み入ったシーンは、まだ細部が崩れることがあります。これは Pro 系のほうが安定する印象でした。

まとめ

長くなりましたが、要点だけ言うと。

打ち合わせ中にその場で画像を出して方向を決めたい人、ストーリーボードでキャラの一貫性を保ちたい人、文字入りのラフを高精度で出したい人——このあたりに当てはまるなら、試す価値はあると思います。

ただ、すべての画像生成ツールを置き換えるかというと、そこまでではない。Pro 系や他のツールと役割分担しながら使うのが、今のところ一番現実的です。

ちなみに、自分が今使っているのは WaveSpeed AI というプラットフォームです。Nano Banana 2 だけじゃなくて、Pro 版や他社の画像・動画モデルも一つの API でまとめて叩けるので、MV のラフ作りで「今日はこっち、明日はあっち」と切り替えたい自分には合っていました。1枚 $0.045 から、登録もすぐ終わります。気になった人は wavespeed.ai を覗いてみてください。

引き続き使ってみて、気づいたことがあれば追記します。同じように映像制作で AI を使っている方、「自分はこう使ってる」「ここで詰まってる」みたいな話、コメントで教えてもらえると嬉しいです🎸

Discussion