📻
GPT-5.2 × Geminiで「深夜のAIラジオ」を作ってみた
GPT-5.2 × Geminiで「深夜のAIラジオ」を作ってみた

こんにちは。2025年ももう終わりですね。
今年はAIの進化が特に音声・動画領域で著しい一年でした。
今回は、最新のGPT-5.2とGemini 2.5-pro-preview-ttsを使って、まるで人間が深夜に語り合っているような「Podcastラジオ」を作成してみたので、その手法と技術的な振り返りを共有します。
「AIの棒読み感」はもはや過去の話。ここまで自然な会話が作れるようになりました。
作成した動画
まずは論より証拠、実際に作成した動画をご覧ください。
深夜の静かな時間に、AIと人間の思考の変化について語り合う5分間のラジオです。
全体ステップと利用したツール
今回使用した「2025年12月時点のAIスタック」は以下の通りです。
- 脚本生成: GPT-5.2 (OpenAI)
- 音声生成: Gemini 2.5-pro-preview-tts (Google)
- 画像生成: Gemini Nano Banana (Google)
- 動画編集: Filmora
制作時間はトータルで1時間程度。
一番時間がかかったのは画像生成部分ですね。
Step 1: GPT-5.2で「リアルな会話」を生成する
まずは脚本作りです。GPT-5.2に対してGemini 2.5-pro-preview-ttsのMulti-speaker-audio用のStyle instructionsとセリフを提案してもらう。
GPT5.2に提案してもらったスタイル設定例:
## Style instructions
Read aloud in a calm, late-night podcast tone.
Allow natural pauses, slight overlaps, and conversational timing.
Avoid narration style. Keep it realistic and intimate.
Step 2: Gemini 2.5で音声を生成する
生成されたテキストをGoogle AI StudioのGemini 2.5-pro-preview-ttsモデル(Multi-speaker-audio)に流し込み、Speaker 1と2に割り当てて音声化しました。
Step 3 &: 画像生成
セリフの雰囲気にマッチする画像を話者ごとにGemini Nano Bananaで生成する。
Step 4: 画像生成と動画編集
動画編集ソフト(今回はFilmoraを利用)で生成した音声データと画像をマージして完成です。
💡 やってみた感想
- nano bananaで「全く同じ顔の人物」を異なるシーンで生成しようとすると、微妙に顔の印象が変わる画像が生成されてしまい完全一致の人物画像を複数生成するのが難しかった。
- Gemini 2.5-pro-preview-ttsの音声のクオリティは高く、AI 特有の違和感はかなり抑えられているが、稀に発音やイントネーションを誤るケースはまだあるので、商用レベルの完成度を目指す場合は、生成後の音声微調整が必要
おわりに
2025年の現在、個人でも「ラジオ局」を持てる時代になりました。
みなさんもぜひ、自分だけのAIラジオを作ってみてください。
Discussion