💬

Google ColabからEdge TTSを利用して音声合成する方法

2024/10/04に公開

自分がこれまで利用してきた音声合成の方法

動画コンテンツの作成などで音声合成を利用することがあります。数年前まではAWSやGoogleのクラウドサービスを利用していました。

https://aws.amazon.com/jp/polly/

https://cloud.google.com/text-to-speech?hl=ja

少し前にはESPnetを使って、無料で音声合成できるのはいいなと思っていました。

https://github.com/espnet/espnet

ただ、ESPnetをGoogle Colabから利用しようとすると、モデルのロードなどでセットアップに時間がかかるという課題がありました。

Edge TTS

Edge TTSというPythonのライブラリがあることを知り、Colabで実行してみました。これはEdgeのオンラインサービスにアクセスしているようなのでモデルのロードなどは必要ありませんが、そのかわりにインターネット接続が必要となります。

!pip install edge-tts
import edge_tts
import asyncio
import nest_asyncio
from IPython.display import Audio

nest_asyncio.apply()

async def generate_speech():
    text = "こんにちは、世界!"
    voice = "ja-JP-NanamiNeural"
    communicate = edge_tts.Communicate(text, voice)
    
    await communicate.save("output.mp3")

asyncio.run(generate_speech())
Audio("output.mp3")

手軽に音声合成するならEdge TTSがよさそうで、使っていきたいと思います。

Discussion