企業PRやCMの動画が自分たちで作れる時代へ【動画生成AI】
3秒まとめ 📝
AI動画生成ツールを組み合わせて、THE FIRST TAKE 風の動画を実際に作ってみました!
- 企業PR・CM制作も可能!
- ファーストテイク風動画は AI で作れる!
- Seedream 4.0 の一貫性保持能力がゲームチェンジャー!Nano Bananaとの使い分け
- DomoAI のリップシンク精度がヤバイ!
- 制作時間 12時間
- 費用:約10,000円
作成した動画 🎯
どんな人向けの記事? 🎯
この記事は、以下のような方に読んでもらいたいです!
- AI動画生成に興味があるエンジニアの方: 最新ツールの組み合わせ方や、画像の一貫性を保つコツを知りたい
- 企業のマーケター・PR担当の方: 短尺の企業PR動画・CM動画を低コストで作りたい
- Seedream 4.0 と Nano Banana の違いを知りたい方: 画像生成AIの使い分けで悩んでいる
なぜ THE FIRST TAKE 風動画なのか 🤔
SORA 2がリリースされて動画生成がより身近になりましたが、細かく制御して動画を生成をしてビジネス利用できたらいいな...!!
そこで、AI動画生成ツールを使って、THE FIRST TAKE 風の動画を作れないか? と考えました。THE FIRST TAKE は、シンプルな構成(白い背景、固定カメラ、ミュージシャンの演奏)だから簡単そうだな、と(YouTubeに動画もあり参考にできますし)。
実際に手を動かして検証してみた結果、かなり自由度高く動画が作れることが分かりました!
企業PR・CM制作に使ってみるのは全然アリだと思います。
(今からやっておくと先行者優位も取れそう)
この記事では、実際の制作手順、かかったコスト、各ツールの使い分け、そしてハマりポイントをすべて晒していきます!
使ったツールと料金プラン 🛠️
まず、どんなツールを使ったのか紹介しますね。
検証環境
| ツール | 用途 | 料金 | 備考 |
|---|---|---|---|
| Suno | 楽曲生成 | 無料〜 | 日本語対応、8分まで生成可 |
| Higgsfield | 画像・動画生成 | $29/月 | Seedream 4.0/Nano Banana 無制限 |
| DomoAI | リップシンク | $27.99/月 | 20秒制限(スタンダード) |
| ElevenLabs | 音声生成 | 無料〜 | 関西弁対応! |
| Final Cut Pro | 動画編集 | 任意 | 他のツールでもOK |
合計: 約10,000円/月(Higgsfield $29 + DomoAI $27.99)
正直、個人利用には結構キツイ金額だよね...。でも、実写撮影のコストって考えると、企業利用なら全然アリだと思う。てか、10,000円の元は余裕で取れる価値があります。
なぜこのツールを選んだのか
Higgsfield を選んだ理由
- Seedream 4.0 と Nano Banana が無制限に使える!(破格)
- Veo 3.1 や Kling も使える(start/end 指定の動画生成が便利すぎる!、シンプルに使ってみたかった!)
DomoAI を選んだ理由
- リップシンク精度が評判良かった
- 自然な口パクと表情の変化が期待できる
Suno と ElevenLabs は無料プランでも十分使えるので、コスト的にも助かりました!
※今回は動画生成メインなので、Sunoは無料で(v5 pro試したいけど我慢)
楽曲作成編
1. 楽曲作成(Suno AI)
まずは楽曲から。今回は「近頃、朝と夜の冷え込みが辛い」というテーマで、ChatGPT に歌詞を作ってもらい、Suno で楽曲を生成しました。
今回は動画生成がメイントピックなので、適当なstyle指定で出てきたのを使用。
画像生成編:⚡ここが最重要!
2. メイン歌唱画像の作成
![]() |
![]() |
![]() |
これが一番重要で、一番時間かかった! 画像生成だけで200枚は生成しました...。
ここで使ったのが Higgsfield の Seedream 4.0 です。
そして、少しのNano banana!!
なぜ Seedream 4.0 なのか?
一貫性保持能力がヤバイ!
(生成したキャラクターの全身の画像をアップして)このキャラクターの横顔を生成して
このプロンプトで、かなり忠実に再現してくれる。これまでのAI画像生成では考えられなかった精度です。

Seedream 4.0 vs Nano Banana 比較
実際に両方でシーン作りを試してみて、比較結果を共有します!
| 項目 | Seedream 4.0 | Nano Banana | 評価 |
|---|---|---|---|
| 一貫性保持 | ◎ | ○ | Seedream の圧勝 |
| 創造性 | ◎ | ○ | Seedream が上 |
| 指示の忠実性 | ○ | ◎ | Nano Banana が上 |
| 顔の一貫性 | ◎ | ○ | Seedream でないと厳しい |
| 使いどころ | 別ショット生成 | 部分修正 | 使い分けが重要 |
結論: Seedream = 創造的なアーティスト、Nano Banana = 堅実な職人、って感じ。
Nano Banana で別ショットを作ると、顔が幼くなるんです...

一貫性を保つなら、断然 Seedream 4.0 です!
画像生成のポイント
ポイント1: 全身・横・後ろ姿を生成
AIは分からないことを予想で作るので、最初から色んな角度の画像を用意しておくと、後々の動画生成がスムーズ(AIに予想させることをできるだけ減らすイメージ)
![]() |
![]() |
![]() |
ポイント2: 表情豊かな画像を用意
真顔の画像だと、リップシンク時に笑顔の表情を予想で作るため、不自然な表情になります。これは盲点だった! 作りたいキャラクターの表情を想定して素材を用意するのが吉。

3. 楽器隊の画像作成
ドラマー、ギタリストの画像も Seedream 4.0 で作成。服装を指定すると、めちゃくちゃ忠実に再現されます!ビジネス的な使用を想定して、サンプルの服装を渡して反映されるか試しましたが、かなり忠実に反映される!
| ギタリスト | ドラマー |
|---|---|
![]() |
![]() |
動画生成〜編集編:DomoAI がヤバイ 🎬
4. 入場シーンの動画作成(Kling 2.1)
※Veo 3.1が使ってみたかったけどクレジット消費が高そうだったので一旦スルー
Figma などのデザインツールでマイクだけの画像(start画像)と、マイクと後ろ姿を重ねた(end画像)を用意して、Higgsfield の Kling 2.1 で 入場シーン の動画を生成。
start/end 指定機能がめちゃくちゃ便利!
「この状態からこの状態に移動してほしい」という時に超便利です。動きも自然でした。
| start | end |
|---|---|
![]() |
![]() |
| ※ハロウィンなのでハロウィン仕様にしました🎃 |
また、ElevenLabs v3 (alpha) でセリフと環境音を生成。感情タグを使えば、細かい表現調整も可能です。
※肌感ですが、テンションを上げて欲しい系の感情がイマイチ(もっと元気よく話して欲しかったw)
5. 歌唱シーンの動画作成(DomoAI)
ここが一番の見せ場!DomoAI のAIアバター を使います。

手順
- 楽曲を20秒ごとに分割(DomoAI のスタンダードプランは20秒まで)※Logic proで実施
- 歌唱画像 + 分割音声をアップロード
- プロンプトを指定
- リップシンク動画を生成
所感: DomoAI のリップシンク精度が想像以上に高い! 自然な口パクで、表情の変化も滑らか。
6. 動画編集(Final Cut Pro)
ポイント: 切れ目にギタリストやドラマー
リップシンク動画生成時間に制限があるので、どうしても切れ目ができる...
そこに別シーンの動画を入れると自然に繋がります。
※トランザクションを使うことも考えましたが、多用すると不自然だし胸焼けするので不採用。
制作フロー全体像
ハマったポイント全部晒す ⚠️
実装中に色々ハマったので、全部晒します...。同じ失敗をしないよう、参考にしてください!
| ハマりポイント | 現象 | 解決策 | 所感 |
|---|---|---|---|
| 想定している画像が生成できない | まだガチャ要素はある | たくさん作る!的確な言語化 | 自分なりの工夫を編み出すの大事 |
| 真顔の画像だと動画で違和感 | リップシンク時に笑顔を予想で作るため、不自然な表情になる(例:ホラー映画みたいな目の開き方になったw) | 最初から表情豊かな画像を生成。笑っている画像を用意 | これは盲点だった。最初から笑顔の画像を用意すべき! |
| DomoAI の20秒制限 | 楽曲全体を一気にリップシンク生成できない | 楽曲を20秒単位で分割して、個別に生成 → 後で結合 | スタンダードプランの制限がキツイ。Proプランなら60秒まで可能(個人的にはProプランの価値あり!) |
| クレジット消費が激しい | DomoAI で同じクオリティの動画をもう1本作れない(standard) | 動画生成の元となる画像生成をかなり細かくやる | リップシンクさせるまでの設計が大事! |
| 正解が分からない | 「どのくらいのクオリティで妥協すべきか」の基準がない | 今回は「とりあえず完成」を優先。案件なら事前にサンプル確認必須 | ガチャ要素や個人の感覚が入ってくるのでクライアントワークは要注意! |
月10,000円の価値はあるのか?コスト検証 💰
さて、一番気になるコストについて詳しく見ていきましょう。
実測値データ
| 項目 | 実測値 | 備考 |
|---|---|---|
| 制作時間 | 12時間(初回) | テンプレ化できれば短縮可能と予想(画像生成がキモ) |
| 月額コスト | $56.99(約10,000円) | Higgsfield $29 + DomoAI $27.99 |
| 画像生成数 | 220回 | 納得いく画像が出るまで試行錯誤 |
| 動画生成回数 | 12回程度 | 入場シーン、歌唱シーン(複数)、楽器隊の合計 |
| DomoAI クレジット消費 | 2/3消費 | 同じクオリティで追加1本は無理 |
| 完成動画の長さ | 約2分30秒 | Sunoで生成した楽曲の長さ |
コスト内訳
| 項目 | 金額 | 備考 |
|---|---|---|
| Higgsfield | $29/月 | 個人的には安いと思う |
| DomoAI | $27.99/月 | クレジット2/3消費、個人的には安いと思う |
| Suno | 無料 | 無料プランで十分 |
| ElevenLabs | 無料 | 無料プランで十分 |
| 合計 | 約10,000円/月 | 初月 |
企業利用 vs 個人利用
企業利用なら◎
- 実写撮影のコストを知りませんが多分安い!
- 企業PR・CM動画に最適
- 撮影スケジュール調整も不要、実在のモデルさんも不要
個人利用なら○
- 月額10,000円は額面的には高い...(個人的にはそれ以上の価値を感じた!)
- 無料プランだけで完結させるのは難しい
テンプレ化でコスパ改善
同じキャラクター・構図を使い回せば、制作時間を2〜3時間に短縮できそう。案件ごとにモデル画像を作っておくと、コスパは大幅に改善すると思います。
DomoAI のクレジット消費が激しいので、長尺動画(5分以上)はコスパ悪いですが、短尺なら十分実用レベルです。
良かった点 ✨
Seedream 4.0 の一貫性保持能力がヤバイ
「このキャラの横顔を生成して」と指示するだけで、かなり忠実に再現される。これまでのAI画像生成では考えられなかった精度です。
DomoAI のリップシンク精度が想像以上
自然な口パクで、表情の変化も滑らか。ここまで自然だと、実写との区別が難しいレベル。
Veo 3.1 や Kling 2.1 の start/end 指定が便利
特定の動きを再現したい時に超便利。
Higgsfield の無制限プラン(Seedream/Nano Banana)がコスパ良い
今回使ったモデル以外も豊富にあって良き!
まとめ: 結局 AI で THE FIRST TAKE 風動画は作れるのか? 📊
実際に検証してみた結果をまとめます!
総合評価
かなりの自由度で動画が作れる!
こんな人におすすめ 👍
- 企業PR・CM制作担当者: 実写撮影コストカット、製品を動画に登場させることも簡単
- 楽曲のPVを作りたいミュージシャン: 予算がない場合の代替手段として優秀(ただしコスト注意)
- プロトタイプ・コンセプト動画を作りたい人: 企画段階でイメージを共有する際に便利
- SNS用の短編コンテンツクリエイター: Instagram Reels、TikTok、YouTube Shorts など、短尺コンテンツに最適
今後の展望
テンプレ化での効率化
同じキャラクター・構図を使い回して、制作時間を2〜3時間に短縮できるか検証したい。
音楽以外のユースケース
企業PR、教育コンテンツ、プレゼンテーション動画など、音楽以外での活用可能性を探りたい。
結論: 月10,000円は額面的には高いけど、企業PR・CM制作ならコストカットできる!Seedream 4.0 の一貫性保持能力がないと、正直厳しいです。テンプレ化や案件ごとのモデル画像作成で、コスパは大幅に改善しそう。
意外な発見
Seedream 4.0 と Nano Banana の性格の違いが面白い
Seedream = 創造的なアーティスト(想像以上のアウトプット)、Nano Banana = 職人(指示通りに動く)という使い分けができると、めちゃくちゃ便利。
Higgsfield がすごい!
使えるモデル数がすごい!
頻繁に割引キャンペーンをやっているらしい。タイミング次第でさらにコスパ改善できそう。
さいごに 🤝
AI で THE FIRST TAKE 風動画を作る、という挑戦をしてみました!
月10,000円というコストはかかりますが、企業PR・CM制作なら実写撮影のコストがかなり削れ、ユースケース次第では十分実用レベルだと思います。Seedream 4.0 や Nano banana の一貫性保持能力がゲームチェンジャーで、これがないと正直厳しい。DomoAI のリップシンク精度も想像以上に高かったです。
個人的には、プライベートでも使いたいレベルで面白かった!!!










Discussion