💬

Google ColabからEdge TTSを利用して音声合成する方法

2024/10/04に公開

 自分がこれまで利用してきた音声合成の方法動画コンテンツの作成などで音声合成を利用することがあります。数年前まではAWSやGoogleのクラウドサービスを利用していました。
https://aws.amazon.com/jp/polly/
https://cloud.google.com/text-to-speech?hl=ja
少し前にはESPnetを使って、無料で音声合成できるのはいいなと思っていました。
https://github.com/espnet/espnet
ただ、ESPnetをGoogle Colabから利用しようとすると、モデルのロードなどでセットアップに時間がかかるという課題がありました。

 Edge TTSEdge TTSというPythonのライブラリがあることを知り、Colabで実行してみました。これはEdgeのオンラインサービスにアクセスしているようなのでモデルのロードなどは必要ありませんが、そのかわりにインターネット接続が必要となります。
!pip install edge-tts
import edge_tts
import asyncio
import nest_asyncio
from IPython.display import Audio

nest_asyncio.apply()

async def generate_speech():
    text = "こんにちは、世界！"
    voice = "ja-JP-NanamiNeural"
    communicate = edge_tts.Communicate(text, voice)
    
    await communicate.save("output.mp3")

asyncio.run(generate_speech())
Audio("output.mp3")
手軽に音声合成するならEdge TTSがよさそうで、使っていきたいと思います。

自分がこれまで利用してきた音声合成の方法

Edge TTS

Discussion