AIで作る業務動画 Day 31|31日間の検証を終えて ― 台本から動画を自動生成するパイプラインが完成した
今日のゴール
31日間のシリーズを振り返り、成果と学びをまとめる。
31日目。シリーズ最終日。
Day 1で「台本から動画を自動生成できるか、31日間で検証する」と宣言してから、あっという間だった。結論から言うと、できた。
完成した動画サンプル
まず、成果物を見てもらうのが早いと思う。
| 種類 | 時間 | Google Drive |
|---|---|---|
| 引継ぎ動画 | 115秒 | 視聴する |
| 報告動画 | 104秒 | 視聴する |
| マニュアル動画 | 185秒 | 視聴する |
どれもJSON形式の台本を書いて、コマンドを1つ実行するだけで生成した動画。編集ソフトは一切使っていない。
完成したパイプライン
台本(JSON)
↓ Gemini TTS API
音声ファイル(.wav)
↓ Rhubarb Lip Sync
口パクデータ(JSON)
↓ Remotion
動画ファイル(.mp4)
Day 1で描いた構成図がそのまま実現できた。
実行コマンド
python work/REQ-2026-001/video-pipeline/scripts/run_pipeline.py scripts/my-script.json
これだけ。台本JSONを渡すと、音声生成→リップシンク生成→動画レンダリングが順番に実行されて、最終的にMP4ファイルが出力される。
31日間の歩み
Phase 1: 環境構築・音声生成(Day 1-5)
最初の5日間はGemini TTS APIの検証。
Day 1で計画を立てたとき、音声合成は「AivisSpeech Engine」か「VOICEVOX」を使う予定だった。でもDay 2でGemini TTS APIを試したら、思っていた以上に品質が良かった。しかも従量課金で10分の音声が約50円。迷わず乗り換えた。
学び: 計画に固執しすぎない。良い選択肢が見つかったら躊躇なく変える。
Phase 2: リップシンク(Day 6-9)
一番不安だったフェーズ。
Rhubarb Lip Syncは英語前提のツールだから、日本語でちゃんと動くのか心配だった。結果、--recognizer phoneticオプションを使えば日本語でも精度83.5%を達成。「使えない」という先入観が覆った瞬間だった。
学び: 試す前に諦めない。ドキュメントをよく読めば突破口がある。
Phase 3: Remotion基礎(Day 10-16)
Reactを触ったことがないのに、Remotionで動画を作る。一番ハードルが高いと思っていたフェーズ。
実際やってみると、Reactの基本(コンポーネント、props、hooks)を押さえれば意外とスムーズに進んだ。フレームベースで時間を扱う考え方に慣れるのに少し時間がかかったけど、7日間で5つのコンポーネント(Character、Subtitle、Background等)を作れた。
学び: 難しそうに見えても、基礎から順番に積み上げれば何とかなる。
Phase 4: 最小パイプライン完成(Day 17-19)
シリーズの分水嶺。「Day 19までに最小動画1本」が必達目標だった。
Day 19の夜、ついに「台本JSONを入れると動画が出てくる」状態になった。5シーン23秒の短い動画だけど、自分で作ったパイプラインから動画が生成されたときは本当に嬉しかった。
学び: 必達目標を決めておくと、優先順位が明確になる。
Phase 5: 業務動画実践(Day 20-25)
パイプラインが動くようになったので、実際の業務動画を作る段階へ。
引継ぎ動画、報告動画、マニュアル動画の3種類を制作。Google Slideから背景画像をエクスポートして、台本JSONと組み合わせる。1本あたりの制作時間は約60分。従来の動画制作(撮影→編集→ナレーション収録)と比べて75-85%の時間削減になった。
学び: 実際に使ってみると改善点が見えてくる。作って終わりではない。
Phase 6: 自動化・改善(Day 26-28)
細かい改善と自動化。
5つのコマンドを1つにまとめるrun_pipeline.pyを作成。台本JSONのスキーマを定義して、バリデーションも追加。FAQとトラブルシューティング集も整備した。
学び: 使いやすさへの投資は惜しまない。
Phase 7: Claude Code連携(Day 29-31)
予備日として確保していた3日間。予定通り進んだので、Claude Code連携を検証。
「新人向けSlack使い方マニュアル動画の台本を作って」と言うだけで、台本JSONが生成される。そのままパイプラインを実行すれば動画が完成。Day 1で夢見た「台本から動画を自動生成」が、さらに「口頭指示から動画を自動生成」に進化した。
数字で振り返る
| 指標 | 数値 |
|---|---|
| 公開記事 | 31本 |
| 完成動画 | 3種類 |
| 制作時間(1本あたり) | 約60分 |
| 従来比削減率 | 75-85% |
| API費用(検証期間中) | 約100円 |
| ツール利用料 | 0円 |
技術スタックまとめ
| ツール | 役割 | コスト |
|---|---|---|
| Gemini TTS API | 音声生成 | 従量課金(10分≈50円) |
| Rhubarb Lip Sync | 口パクデータ生成 | 無料 |
| Remotion | 動画生成 | 個人無料 |
全てWindows 11で動作確認済み。特別なハードウェアは不要。
31日間を終えて
Day 1で「本当にできるかはわからない。やってみないと。」と書いた。
31日後の今、できると言い切れる。
台本を書けば動画が出てくる。音声合成もリップシンクも自動。編集ソフトは使わない。これが「非エンジニアでも業務動画を作れる」という最初のコンセプトの答えだと思う。
もちろん課題は残っている。スライド作成はまだ手動だし、確認・調整に時間がかかる場面もある。でも、75-85%の時間削減という結果を見れば、十分実用的なレベルに達したと言えるんじゃないだろうか。
31日間、読んでいただきありがとうございました。
質問や感想があれば、ぜひコメントで教えてください。
シリーズ一覧
- Day 1: シリーズ概要と環境準備
- Day 2-30: 各Day記事は著者ページから
- Day 31: 本記事(最終回)
Discussion