👏

Gemini 2.5 Pro TTSの衝撃的な日本語音声

に公開

Gemini 2.5 Pro TTSの衝撃的な日本語音声

まずはこれを見てもらいたい。

https://youtu.be/i-8m816esMY

この記事を音声で聞きたい方は、以下の音声を速度調整してご視聴ください。

https://www.youtube.com/watch?v=m2bn3sLvGLM

この動画は、最前線のAI技術を駆使して制作した完全AI生成プレゼンテーションだ。セリフ・音声・発表スライド・人物の映像・BGMのすべてがAIによって自動生成されている。 特に注目してほしいのは、その日本語音声の自然さだ。

これはもはや人間の声と区別がつかない。AIの音声合成は、ついに本物の「魂」を宿したのかもしれない。

この動画で使用したのは、Google I/O 2025で発表されたGemini 2.5 Pro Preview TTSという音声合成技術だ。実際に制作してみて、その日本語音声の自然さに心底震撼した。NotebookLMの日本語対応で感動した5月頭の自分が、まるで石器時代の住人のように思えるほどだ。

NotebookLMを超えた、圧倒的な自由度

NotebookLMの音声概要機能が日本語対応した時、確かに驚いた。男女2名の会話形式で、データソースから自動生成される音声は画期的で、今でも非常に有用なツールだ。

しかし、より細かい制御を求める場面では、やはり制約を感じることがある。話者は基本2名固定、音質変更不可、そして何よりガチャ要素が強い。 カスタムプロンプトで多少は制御できるが、完全に自由な文章指定という点では限界がある。

それに対して、今回のGemini 2.5 Pro TTSは全く異なるアプローチを取っている。完全に自由な文章指定、そして選択肢として用意された29種類もの音声タイプ。 NotebookLMとは異なる用途・場面で威力を発揮する、新たな選択肢が登場したのだ。

29の声が語る未来 - 声の多様性が示すAIの成熟

実際に提供されている音声タイプを見ると、その多様性に驚かされる。明るいZephyr、情報的なCharon、息混じりで柔らかいEnceladus、そして渋いしゃがれ声のAlgenib。それぞれが明確に個性を持ち、用途に応じて使い分けができる。

これはもう「合成音声を使っている」という意識すら忘れさせるレベルだ。 人間の声と見分けがつかないほどの自然さに到達している。

特に印象的だったのは、以下のような詳細なスタイル指定ができる点だ:

prompt_json = {
    "text": """
<speak>
今日見た未来は、始まりに過ぎません。AIは今後も進化し、医療や教育、環境保護など様々な分野で可能性を広げます。AIと人間が力を合わせれば、誰もが豊かで便利な社会を享受できます。これから私たちはAIと共に創造し、課題を解決していくのです。このワクワクする未来を、皆さんと共に築けることを心から楽しみにしています。AIとの新しい一歩を、一緒に踏み出しましょう!<break time="2s"/>

ご清聴ありがとうございました!
</speak>
""",
    "voice": {
        "name": "Autonoe",
        "styleInstructions": "inspirational_confident",
        "speed": 0.80
    },
}

速度調整、感情表現、さらには息継ぎのタイミングまで制御できる。 この自由度の高さは、NotebookLMにはない大きなアドバンテージだ。

完全AI制作の衝撃 - 人間不要の時代が現実に

今回制作した動画は、以下の技術で完全自動生成した:

  • スクリプト生成: ChatGPT
  • 音声合成: Gemini 2.5 Pro Preview TTS
  • スライド制作: Flowith AI
  • 映像化: Vozo

人間が行ったのは最終的な動画編集のみ。 コンテンツの企画から台本、音声、ビジュアル、すべてがAIによって生み出された。制作時間は従来の10分の1以下だろう。

しかし、ここで重要なのは「だから人間は不要」という単純な話ではないということだ。

声優業界に迫る激震 - 翻訳家の二の舞を避けるために

実際に翻訳家の仕事は、すでに壊滅的な水準で減っているそうだ。これは決して他人事じゃない。 音声合成技術のこの進歩を見ると、声優や音声関連の仕事も同様の変化に直面する可能性が高い。

ただし、これは単純な「置き換え」ではなく「進化」として捉えるべきだ。優秀な声優は、AIでは表現できない微細な感情表現や演技力で差別化を図れるし、AIを活用して効率的に作品を制作するスキルを身につければ、むしろ生産性は飛躍的に向上する。

問題は、この変化に適応できない側が単純に生産性で負ける未来が想像に難くないことだ。

まだ見えない落とし穴 - 完璧ではない現実

もちろん、現状では課題も多い。実際に使ってみると、7割程度は期待通りの音声が生成されるが、残り3割は微妙な発音やイントネーションの違和感が残る。 特に固有名詞や専門用語の読み上げには、まだ改善の余地がある。

また、リアルタイム生成にはまだ時間がかかり、商用利用での権利関係も不透明な部分が多い。セキュリティ面でも、生成された音声の悪用可能性という新たなリスクが生まれている。

ハイプサイクルの頂点にいる今こそ

Gemini 2.5 Pro TTSのような音声合成AIは、まだハイプサイクルの頂点だと感じる。 過度な期待と現実のギャップで、やがて幻滅期が来るだろう。使えない人があふれ、「所詮AIは人間には勝てない」という声も上がるはずだ。

そこを乗り越えて再浮上したとき、本当の意味で世界を変えるツールになるはずだ。 今は過渡期の混乱期だからこそ、冷静に技術を評価し、適切な活用方法を模索することが重要だ。

変化に適応していない側が、単純に生産性で負ける未来は想像に難くない。 プログラマという職業が終わるのか? 自分はそうは思わない。しかし、AIを使いこなせないプログラマは確実に淘汰される。音声制作も同じだ。

あなたはどの道を選ぶか

Gemini 2.5 Pro TTSは真のイノベーションの入口であり、そして開けてはいけないパンドラの箱でもある。 しかし、もう箱は開かれてしまった。

あなたがどう判断するかは自由だが、一度触れてみればこの可能性を感じずにはいられないだろう。 この技術を恐れるのではなく、共に成長していくパートナーとして捉えることができれば、きっと新しい創造の扉が開かれるはずだ。

AI音声合成の新時代はもう始まっている。


この記事で紹介した技術に興味を持った方は、ぜひ実際に試してみてください。Google AI Studio(https://aistudio.google.com/generate-speech)でGemini 2.5 Pro Preview TTSを体験できます。

Accenture Japan (有志)

Discussion