【保存版】Gemini × Veoで「意図通り」の動画を作る完全ワークフロー
<img src="https://storage.googleapis.com/zenn-user-upload/00b0aab99570-20251124.png" alt="" class="md-img" loading="lazy"> 
AI動画制作の「ガチャ」から脱却し、意図を込めた制作へ
<h2 id="1.-%E3%81%AF%E3%81%98%E3%82%81%E3%81%AB" data-line="5" class="code-line">
<a class="header-anchor-link" href="#1.-%E3%81%AF%E3%81%98%E3%82%81%E3%81%AB" aria-hidden="true"></a> 1. はじめに</h2>
生成AIによる動画制作は、「ガチャ」の連続になりがちです。プロンプトをどれだけ調整しても、キャラクターの顔が変わってしまったり、構図が暴れてしまったり……そんな経験はありませんか？
この記事では、「AIとの対話を通じて制作者の意図を正確に反映させる」ことを目的とした、コントロール可能な映像制作パイプライン（Veo1〜3）の全貌を解説します。
単なる「Text-to-Video」ではなく、「アイデア構造化」「絵コンテ」「動画生成」の3工程にAIを適材適所で配置し、GeminiとVeoの能力を最大限に引き出すアーキテクチャを紹介します。
<hr data-line="12" class="code-line">
<h2 id="2.-%E5%85%A8%E4%BD%93%E3%82%A2%E3%83%BC%E3%82%AD%E3%83%86%E3%82%AF%E3%83%81%E3%83%A3%EF%BC%9A%E3%81%AA%E3%81%9C%E3%80%8C%E5%88%86%E6%A5%AD%E5%9E%8B%E3%80%8D%E3%81%AA%E3%81%AE%E3%81%8B" data-line="14" class="code-line">
<a class="header-anchor-link" href="#2.-%E5%85%A8%E4%BD%93%E3%82%A2%E3%83%BC%E3%82%AD%E3%83%86%E3%82%AF%E3%83%81%E3%83%A3%EF%BC%9A%E3%81%AA%E3%81%9C%E3%80%8C%E5%88%86%E6%A5%AD%E5%9E%8B%E3%80%8D%E3%81%AA%E3%81%AE%E3%81%8B" aria-hidden="true"></a> 2. 全体アーキテクチャ：なぜ「分業型」なのか</h2>
なぜ、一つの巨大なAIに全てを任せる「Text-to-Video」だけを目指さないのでしょうか。それは、自動車工場と同じです。「設計」と「部品製造」と「組み立て」を分けることで、品質が安定するからです。
<img src="https://storage.googleapis.com/zenn-user-upload/319c02a1777a-20251124.png" alt="" class="md-img" loading="lazy"> 
単一モデルではなく、役割の異なるAIを連携（オーケストレーション）させる設計
このワークフローは以下の3つのフェーズで構成されています：
<ol data-line="23" class="code-line">
<li data-line="23" class="code-line">
Phase 1: アイデアの構造化 (Veo1)
<ul data-line="24" class="code-line">
<li data-line="24" class="code-line">ユーザーの脳内にある曖昧なイメージを、言語モデルとの対話で明確な「設計図（JSON）」に変換します。</li>
</ul>
</li>
<li data-line="25" class="code-line">
Phase 2: ビジュアルの具体化 (Veo2)
<ul data-line="26" class="code-line">
<li data-line="26" class="code-line">設計図を基に、詳細な「絵コンテ（PDF）」や「構図スケッチ」を作成します。ここで映像の良し悪しが決まります。</li>
</ul>
</li>
<li data-line="27" class="code-line">
Phase 3: 映像への昇華 (Veo3)
<ul data-line="28" class="code-line">
<li data-line="28" class="code-line">確定した絵コンテと参照画像を用いて、一貫性を保ったまま動画クリップを生成します。</li>
</ul>
</li>
</ol>
<img src="https://storage.googleapis.com/zenn-user-upload/9a6ec5aa5310-20251124.png" alt="" class="md-img" loading="lazy">
<hr data-line="32" class="code-line">
<h2 id="3.-%E5%AE%9F%E8%A3%85%E3%82%B9%E3%83%86%E3%83%83%E3%83%97%E3%81%A8%E6%8A%80%E8%A1%93%E3%81%AE%E3%83%9D%E3%82%A4%E3%83%B3%E3%83%88" data-line="34" class="code-line">
<a class="header-anchor-link" href="#3.-%E5%AE%9F%E8%A3%85%E3%82%B9%E3%83%86%E3%83%83%E3%83%97%E3%81%A8%E6%8A%80%E8%A1%93%E3%81%AE%E3%83%9D%E3%82%A4%E3%83%B3%E3%83%88" aria-hidden="true"></a> 3. 実装ステップと技術のポイント</h2>
ここからは、各フェーズにおける具体的な技術実装の勘所（ハイライト）を深掘りします。
<h3 id="phase-1%3A-veo1-(storyflow)---%E3%82%A2%E3%82%A4%E3%83%87%E3%82%A2%E3%81%AE%E6%A7%8B%E9%80%A0%E5%8C%96" data-line="38" class="code-line">
<a class="header-anchor-link" href="#phase-1%3A-veo1-(storyflow)---%E3%82%A2%E3%82%A4%E3%83%87%E3%82%A2%E3%81%AE%E6%A7%8B%E9%80%A0%E5%8C%96" aria-hidden="true"></a> Phase 1: Veo1 (StoryFlow) - アイデアの構造化</h3>
ユーザーの曖昧なアイデアを、機械が処理可能なデータに変換するフェーズです。ここではチャット形式でAIディレクターと対話し、シーン構成を固めます。
<img src="https://storage.googleapis.com/zenn-user-upload/517ece382c58-20251124.png" alt="" class="md-img" loading="lazy">
📌 Tech Highlight：JSON Schemaによる強制 
AIの出力は自然言語では不安定になりがちです。そこで <code>responseSchema</code> 機能を使って厳格なJSONフォーマットを強制します。
<img src="https://storage.googleapis.com/zenn-user-upload/a4db4df9ded8-20251124.png" alt="" class="md-img" loading="lazy">
これにより、AIは必ず「シーン番号」「タイムスタンプ」「視覚的プロンプト」を含む構造化データを返すようになり、システムエラーを劇的に減らすことができます。
<hr data-line="51" class="code-line">
<h3 id="phase-2%3A-veo2-(visualscript)---%E3%83%97%E3%83%AD%E5%93%81%E8%B3%AA%E3%81%AE%E3%80%8Cai%E7%B5%B5%E3%82%B3%E3%83%B3%E3%83%86%E3%80%8D" data-line="53" class="code-line">
<a class="header-anchor-link" href="#phase-2%3A-veo2-(visualscript)---%E3%83%97%E3%83%AD%E5%93%81%E8%B3%AA%E3%81%AE%E3%80%8Cai%E7%B5%B5%E3%82%B3%E3%83%B3%E3%83%86%E3%80%8D" aria-hidden="true"></a> Phase 2: Veo2 (VisualScript) - プロ品質の「AI絵コンテ」</h3>
次はビジュアル化です。ここでは「あえて完成させない」ことが重要です。フォトリアルな画像ではなく、味のあるラフスケッチを生成させます。
<img src="https://storage.googleapis.com/zenn-user-upload/f9ad506a565e-20251124.png" alt="" class="md-img" loading="lazy"> 
完成画ではなく、演出意図を伝えるための「ラフスケッチ」を出力する
📌 Tech Highlight：「隠しDOM」によるPDF生成 
Webアプリから、レイアウトの崩れない綺麗なPDFを出力するために、少し特殊なハックを使っています。
<img src="https://storage.googleapis.com/zenn-user-upload/d2d2c2da85e1-20251124.png" alt="" class="md-img" loading="lazy">
<ol data-line="65" class="code-line">
<li data-line="65" class="code-line">画面外（<code>z-index: -50</code>）に、印刷専用の完璧なレイアウトを持つDOMを配置。</li>
<li data-line="66" class="code-line">
<code>html2canvas</code> でその「隠しDOM」をキャプチャ。</li>
<li data-line="67" class="code-line">ユーザーが見ているUIとは別の、プレゼン品質のPDFを生成。</li>
</ol>
これにより、「操作しやすいUI」と「提出用の美しい資料」を両立させています。これは実務アプリ開発で非常に役立つテクニックです。
<hr data-line="71" class="code-line">
<h3 id="phase-3%3A-veo3-(storyboard-creator)---%E4%B8%80%E8%B2%AB%E6%80%A7%E3%81%AE%E3%81%82%E3%82%8B%E5%8B%95%E7%94%BB%E5%8C%96" data-line="73" class="code-line">
<a class="header-anchor-link" href="#phase-3%3A-veo3-(storyboard-creator)---%E4%B8%80%E8%B2%AB%E6%80%A7%E3%81%AE%E3%81%82%E3%82%8B%E5%8B%95%E7%94%BB%E5%8C%96" aria-hidden="true"></a> Phase 3: Veo3 (Storyboard Creator) - 一貫性のある動画化</h3>
最終工程です。ここでの最大の課題は「キャラクターの一貫性（Character Consistency）」です。前工程で作ったPDF絵コンテを読み込ませ、動画を生成します。
<img src="https://storage.googleapis.com/zenn-user-upload/9183f265c89a-20251124.png" alt="" class="md-img" loading="lazy">
📌 Tech Highlight：Reference Assetの活用 
Geminiのマルチモーダル機能でPDFを解析しつつ、Veoの <code>config.referenceImages</code> パラメータを使用します。
<img src="https://storage.googleapis.com/zenn-user-upload/f1c4bc737240-20251124.png" alt="" class="md-img" loading="lazy">
通常モデルではなく、参照画像を指定することで自動的に高精度なモデルに切り替わる設計にしています。これにより、カットが変わっても「同じキャラクター（狼のフェンリル）」が維持され、破綻のないストーリー映像が完成します。
<hr data-line="86" class="code-line">
<h2 id="4.-%E5%88%B6%E4%BD%9C%E4%BA%8B%E4%BE%8B%EF%BC%9Afenrir-wolf" data-line="88" class="code-line">
<a class="header-anchor-link" href="#4.-%E5%88%B6%E4%BD%9C%E4%BA%8B%E4%BE%8B%EF%BC%9Afenrir-wolf" aria-hidden="true"></a> 4. 制作事例：Fenrir Wolf</h2>
実際にこのワークフローを使って、「狼のフェンリルの誕生から旅立ち」を描いた事例がこちらです。
<img src="https://storage.googleapis.com/zenn-user-upload/52a176345422-20251124.png" alt="" class="md-img" loading="lazy">
最初のテキストアイデアが、各工程を経て徐々に具体的になり、最終的に意図通りの映像になっていることが分かります。「ガチャ」に頼らず、エンジニアリングでクリエイティブを制御する醍醐味です。
<hr data-line="96" class="code-line">
<h2 id="5.-%E3%81%BE%E3%81%A8%E3%82%81" data-line="98" class="code-line">
<a class="header-anchor-link" href="#5.-%E3%81%BE%E3%81%A8%E3%82%81" aria-hidden="true"></a> 5. まとめ</h2>
AI動画制作は「運ゲー」から「設計可能なエンジニアリング」へと進化しています。
<ol data-line="102" class="code-line">
<li data-line="102" class="code-line">
分業せよ： 思考（LLM）と描画（Video Model）を分ける。</li>
<li data-line="103" class="code-line">
構造化せよ： JSON Schema等を用いて、曖昧な指示を確定的なデータにする。</li>
<li data-line="104" class="code-line">
参照せよ： Reference Assetを活用して、一貫性を固定する。</li>
</ol>
ぜひ、このアーキテクチャを参考に、あなたのプロジェクトでも「制御可能なAIワークフロー」を構築してみてください。
#Gemini #Veo #VertexAI #GenerativeAI #GoogleCloud #NotebookLM #NanoBananaPro #AI #業務効率化
<iframe src="https://speakerdeck.com/player/aeae5b522986434a9f7f414578b9ab2e" scrolling="no" allowfullscreen allow="encrypted-media" loading="lazy"></iframe>

2025年の最も大きなチャレンジ

【保存版】Gemini × Veoで「意図通り」の動画を作る完全ワークフロー

2. 全体アーキテクチャ：なぜ「分業型」なのか

Phase 1: Veo1 (StoryFlow) - アイデアの構造化

Phase 2: Veo2 (VisualScript) - プロ品質の「AI絵コンテ」

Phase 3: Veo3 (Storyboard Creator) - 一貫性のある動画化

3. 実装ステップと技術のポイント

Discussion