🎥

コンサル戸愚呂が生まれた日:AI動画生成ツール『veo3』×nano-banana徹底活用術

に公開

はじめに

「テキストから動画を作る」。
かつて夢物語だった技術が、いま私たちの手に届くようになっています。Googleが提供するveo3は、8秒の短編動画を生成できるAIで、登場と同時に大きな注目を集めました。

しかし実際に触ってみると、思い描いた通りの映像を得るのはまだ難しいのが現実です。人物が違う、日本語を話さない、無音になる…。さらにPROプランでは1日3回という制限があり、失敗すると試行錯誤の余地すらなくなってしまいます。

本記事では、最新のプラン・料金体系の正確な情報を整理しつつ、効率よく「狙い撃ち」で動画を作るための実践的な5ステップワークフローを紹介します。

プランと料金体系の最新整理

PROプラン

月額 $19.99
Geminiアプリ内:Veo 3 Fast が1日3回まで
Flow/Whisk:月1,000クレジット付与
Veo 3 Fast = 20クレジット/本(8秒)
Veo 3 Quality = 100クレジット/本(8秒)
→ Fastなら最大50本/月、Qualityなら10本/月が上限目安

Ultraプラン

月額 $249.99
Geminiアプリ内:Proより高い上限(ただし無制限とは明記されていない)
Flow/Whisk:月25,000クレジット
Fast換算で最大1,250本/月、Quality換算で250本/月
1080pや高度なカメラ制御など、上限解放された機能にアクセス可能

👉 整理すると:

PRO=ライトユーザー向け。お試しや限定的な利用に適している。
Ultra=本格的な動画制作向け。大量生成や高画質用途に強い。

課題 ― 「生成ガチャ」の現実

完全にテキストだけで動画を作ろうとすると、次のような現象が頻発します。

登場人物がコロコロ変わる
日本語で話してくれず英語になる
無音クリップが出る
意味不明なテロップのような文字列が生成される
喋らせたい人と違う人が喋り始める
そのため、ただテキストを投げるだけでは「運ゲー」 になってしまい、狙った動画に辿りつけません。PROプランでは1日3本の制限があるので余計に。

実践的な5ステップワークフロー

① シナリオ作成

1カット=8秒以内に分割
セリフ・状況・カメラワークを具体的に記載
👉 プロンプト例

次の内容を8秒以内のカットで分割したストーリーを作成してください。
・主人公は戸愚呂弟
・戸愚呂弟がコンサルタントとなり、ゼネコンにビルを3分で平らにする方法をコンサルする。
・各カットに台詞、状況、カメラワークを明記する
・状況はAIが理解できるように具体的に記載する
・台詞は必ず日本語
・1カットは8秒以内

👉 出力例

カット1(イントロ:提案)
映像: 会議室。プロジェクターで「ビル解体:現状の課題」とスライドが映る。戸愚呂(スーツ姿)がレーザーポインターで図を指す。
セリフ:
戸愚呂「既存の解体手法では、コストと時間がかかりすぎる。今回は“3分で平らにする”アプローチを提案する。」
カット2(ロジック展開)
映像: スライドに「課題→解決策→期待効果」のフレームワーク。社員たちが真剣にメモを取る。
セリフ:
戸愚呂「解決の鍵は、“外部リソースの最大活用”だ。重機でも爆破解体でもない……“筋肉”というリソースだ。」
カット3(具体策)
映像: CGで「通常解体=数週間」「戸愚呂方式=3分」と棒グラフ比較。
セリフ:
戸愚呂「これにより、工期は1/100以下。安全管理コストも大幅削減可能だ。」
カット4(現場視察)
映像: 現場。ヘルメットを被った社員と戸愚呂。ビルを見上げるカット。
セリフ:
社員A「……理論上は理解できますが、本当に可能なんですか?」
戸愚呂「Proof of Concept を実施しよう。」
カット5(デモ開始)
映像: 戸愚呂、スーツを脱いでYシャツ姿。腕まくりをする。社員たちが緊張。
セリフ:
戸愚呂「ここからは実演だ。」
カット6(実行)
映像: 戸愚呂がビルに拳を当て、ゆっくり押すと揺れ始める。社員たちはストップウォッチをチェック。
セリフ:
社員B「本当に……動いてる……!」
カット7(成果確認)
映像: ビルが3分で完全崩壊。粉塵の中で社員が拍手。画面に「実証:成功」とスライド風にオーバーレイ表示。
セリフ:
社員C「……KPI達成です!」
カット8(クロージング)
映像: 瓦礫の山を背景に、戸愚呂が腕組み。画面下に「次回フェーズ:全国展開」とテロップ。
セリフ:
戸愚呂「次は、都市単位でやろう。」

② キャラクターベース生成

Gemini 2.5 Flash Image(nano-banana) を使い、主人公を固定
この「ベース画像」を後の各カットで参照する
今回は戸愚呂をベースに生成したこの男性を主人公にします。

③ 各カット用の画像生成

ベースキャラ画像を参照しつつ、シーンに応じて差分を生成
表情・ポーズ・衣装・背景を細かく指定
Nano Bananaを使い同じキャラクターで別シーンを生成
👉 プロンプト例

※②で作成した画像を添付

添付画像の男性を使いカット1の最初のシーンを作成してください。
カット1(イントロ:提案)
映像: 会議室。プロジェクターで「ビル解体:現状の課題」とスライドが映る。戸愚呂(スーツ姿)がレーザーポインターで図を指す。
セリフ:
戸愚呂「既存の解体手法では、コストと時間がかかりすぎる。今回は“3分で平らにする”アプローチを提案する。」

👉 生成された画像

④ 動画生成(Flow/Gemini)

Geminiに各カットの「参照画像+台詞+状況」をセットで投入
必ず日本語を喋ること、英語はNGとしゃべらせたいセリフを指定する
AIが作成した情報だけでは不足するので、適宜状況の補足や条件を追加する。
Fastで試作→気に入ったものをQualityで本番、が効率的
👉 プロンプト例

※③で作成した画像を添付

映像: 会議室。プロジェクターで「ビル解体:現状の課題」とスライドが映る。戸愚呂(スーツ姿)がレーザーポインターで図を指す。
身振り手振りを交えて資料の説明をする。
セリフ:
戸愚呂「既存の解体手法では、コストと時間がかかりすぎる。今回は“3分で平らにする”アプローチを提案する。」

必ず日本語で喋ること、英語はNG
戸愚呂の声は力強い男性の声、コンサルらしく落ち着いて話す。

👉 生成した動画

https://youtu.be/orNWuJ5b5ps

というわけでここまでやっても英語で話したり、途中キャラが変わったりします。妥協が大事!

⑤ 編集ソフトで仕上げ

生成したカットを繋げ、BGM・効果音・テロップを追加
FilmoraなどのNLEを活用
ただしFilmora内でVeoを直接呼ぶと1,000〜1,500クレジット消費するため、生成はFlow/Gemini、編集はFilmoraと分業するのが効率的

ビフォー・アフター比較

Before(テキストのみで生成)
主人公が毎回別人になる
セリフが英語になる
無音の動画が生成される
意味不明な文字列のテロップが生成される
After(キャラベース+カット画像併用)
同じキャラクターが一貫して登場
セリフが日本語で自然に再生される
背景がシナリオ通りのオフィスに安定
👉 キャラクター生成とカット生成を分けるだけで「運ゲー」が「狙い撃ち」になる。

まとめ

PRO=1日3回+月1,000クレジット
Ultra=月25,000クレジット、本格制作向け
テキストだけでは「生成ガチャ」になる
成功の鍵は 5ステップワークフロー:
①シナリオ → ②キャラベース生成 → ③各カット画像 → ④動画生成 → ⑤編集
キャラクターとカットを分けることで、狙い通りの動画を作れる可能性が大幅に向上
nano-bananaの活用で、人物一貫性が大幅に向上
AI動画はまだ発展途上ですが、手順を工夫すれば十分実用レベルで使えます。次のアップデートが来たとき、真っ先に活かせるのは、このプロセスをいまから磨いている人たちです。

Discussion