ElevenLabsの「Eleven v3」を試す
Eleven v3 (alpha) をご紹介します - これまでで最も表現力豊かなテキスト読み上げモデルです。
70 以上の言語、マルチスピーカーの会話、[excited]、[sights]、[laughing]、[whisper] などのオーディオタグに対応しています。
現在、パブリックアルファ版がリリースされており、6 月中は 80% オフでお求めいただけます。
これは研究プレビューです。以前のモデルよりもより高度なプロンプトエンジニアリングが必要ですが、生成結果は息を飲むほど素晴らしいものです。
信頼性と制御性を向上させるため、引き続き微調整を続けてまいります。
Eleven v3 の新しいアーキテクチャは、テキストを深く理解し、より豊かな表現力を実現します。
さらに、オーディオタグを使用して、世代をより直接的に指導することが可能になりました。
- 感情 [sad] [angry] [happily]
- 発声方向 [whispers] [shouts]
- 非言語的反応 [laughs] [clears throat] [sighs]
実際の会話のように聞こえる、複数の話者による対話を生成します。
Eleven v3 は、会話の文脈に基づいて、中断、トーンの変化、感情のニュアンスを処理します。
Eleven v3 (アルファ版) のパブリック API が間もなくリリースされます。早期アクセスをご希望の場合は、営業までお問い合わせください。
v3 のリアルタイム版の開発を進めています。リアルタイムおよび会話型のユースケースには、当面は v2.5 Turbo または Flash をご利用いただくことをお勧めいたします。
クリエイターと開発者がメディアツールを構築するために設計されました。
動画、オーディオブック、またはメディアツールの開発に取り組んでいる場合、v3は表現力の新たな次元を解き放ちます。プロンプトガイドで、その機能を最大限に活用する方法を学びましょう:
Eleven v3 (alpha) がリリースされました:https://elevenlabs.io/v3
6 月中は 80% オフでお買い求めいただけます。
ぜひお試しいただき、最高の世代を私たちと共有してください。
過去、ElevenLabsのTTSを色々試してきたが、
日本語だと、漢字の読み間違いが非常に多く、イントネーションもいまいちな印象だったが、このあたりが改善されているか?を確認してみたい。日本支社もできたようなので期待。
一連のツイートにある通り、まだAPIは公開されていないようなので、ダッシュボードから試す。ログインするとこんな感じで表示される。

Text to Speechの画面。モデルに"Eleven v3 (alpha)" を選択。

音声は "Best voices for V3" というフィルタがある。今回はそこからElevenLabsの公式音声である"Jessica
"をチョイスした。

以前MiniMaxを試したときと同じ文章で発話させてみる
アウステルリッツの凍てついた大地を、2万の騎兵の轟く蹄が震わせた。ナポレオンはプラッツェン高地の上に立ち、激しい決意で胸を鼓動させていた。厳しい12月の風が、戦場に火薬の刺激的な臭いを運び、朝の霧がゆっくりと晴れて、彼の前に広がる広大な軍勢が姿を現した。ヨーロッパの運命は、まさにこの瞬間に懸かっていた。

こんな感じで2パターン生成される。

それぞれこんな感じ
比較として、Multilingual v2 / Turbo v2.5 / Flash v2.5 でも生成してみたのが以下。
Multilingual v2
Turbo v2.5
Flash v2.5
日本語の漢字の読みやイントネーションがかなり改善されているのではないだろうか?
Eleven v3は感情・非言語などをタグで指定できる。で、「Enhance」をクリックすると、これを自動的に設定してくれる。少しテキストを変えてみる。
こんにちは、花子です。今日は太郎さんと、2025年春の競馬、G1レースの展望について語りたいと思います。まずは、各レースの見どころについて教えてください。
まず何も指定せずに出力してみた。

生成されたもの
「Enhance」を適用してみる。

自動的にタグが適用されている。「Keep」で確定させて、再度生成してみる。

生成されたもの。今回の例だとちょっと違いがわかりにくいかも。
NotebookLMのような2者による会話も生成できる。
まず一人目の発話テキストを入力して、"Add Speaker"をクリック

追加入力できるようになるので、音声を変えて発話テキストして・・・を繰り返していく。

最終的にこんな感じ。生成。

できたものは以下。
これをさらに「Enhance」してみるとこうなる。

2025/10/23追記 アップロードを間違っていたので修正。今気づいたけど1つ目の例では音声が切り替わってないように思える。
非言語タグの効果はあまり強く感じないけど、今後改善されるのかな?でも色々な種類のタグがあって興味深い。
あと、生成→再生がかなり速く感じたのだけど、ストリーミングだよね。良い。
まとめ
ElevenLabs、音声クローンの精度も高いし、APIもWebSocket使って入力のストリーミングができたり、そしてASRもかなり精度高い、ということで、リアルタイムな音声エージェント作るには必要なものが一通り揃っていると思う(あとはASRがストリーミングに対応すれば・・・)。
ただ、日本語の発話精度がずっとイマイチってのがネックで、今回のEleven v3でそのあたりがかなり改善されてるように思えた。このあたりは、文章の内容や選択する音声によっても変わってくると思うので、自分で試して判断するのが良いと思う。
まだalphaリリースということで、非言語タグの効き具合とかによくわからないところもあるけど、正式リリースまでにさらにブラッシュアップされることを期待したい。