💬
Google ColabからEdge TTSを利用して音声合成する方法
自分がこれまで利用してきた音声合成の方法
動画コンテンツの作成などで音声合成を利用することがあります。数年前まではAWSやGoogleのクラウドサービスを利用していました。
少し前にはESPnetを使って、無料で音声合成できるのはいいなと思っていました。
ただ、ESPnetをGoogle Colabから利用しようとすると、モデルのロードなどでセットアップに時間がかかるという課題がありました。
Edge TTS
Edge TTSというPythonのライブラリがあることを知り、Colabで実行してみました。これはEdgeのオンラインサービスにアクセスしているようなのでモデルのロードなどは必要ありませんが、そのかわりにインターネット接続が必要となります。
!pip install edge-tts
import edge_tts
import asyncio
import nest_asyncio
from IPython.display import Audio
nest_asyncio.apply()
async def generate_speech():
text = "こんにちは、世界!"
voice = "ja-JP-NanamiNeural"
communicate = edge_tts.Communicate(text, voice)
await communicate.save("output.mp3")
asyncio.run(generate_speech())
Audio("output.mp3")
手軽に音声合成するならEdge TTSがよさそうで、使っていきたいと思います。
Discussion