🔊

合成音声における違和感の正体

2025/02/14に公開

最近、AivisSpeechのような高品質な合成音声技術がでてきました。以前の合成音声に比べ、格段に自然になった一方、それでも何か説明のつかない違和感があることに気づきました。

声が乾いているというか、はっきりしすぎているというか。
試しに音声を少し遅らせて重複させるエフェクトをかけてみると、なぜかすごく自然になりました。

これは、なんでなのか考えてみました。

人は常に音の反響がある場所で会話をしているので、反響がない状態の声を聴くとすごく違和感を感じるのだと結論づけました。

また、壁からの距離を3Mとし、音が返ってくる往復の距離3×2=6Mを音速300Mで割ると、
0.02秒、20ミリ秒の遅延エフェクトを追加することで現実に即した反響となります。

0.02秒の反響音など、ほぼ認識できないと思われるかもしれませんが、実際にやってみるとなぜか自然に聞こえるのです。

合成音声を使用して動画を作成されている方などは、気にしてみるといいかもしれません。

Discussion