🔊

ElevenLabs CEOが語る、音声AIの現在と未来【講演レポート】

に公開

はじめに

2025年11月18日、音声AIの分野をリードするElevenLabsのCEO、Mati Staniszewski氏が来日し、同社の技術と未来のビジョンについて語りました。本記事では、その講演の全貌を、CEO自身の言葉とスライドを正確に対応させながら、より深く、詳細にレポートします。

単なる文字起こしに留まらず、Mati氏が何を伝えようとしていたのか、その情熱とビジョンを正確に読者の皆様にお届けすることを目指します。

講演の様子

すべての始まり:ポーランドの映画文化と一つの友情

講演は、ElevenLabsの原点が共同創業者であるLuke Kielcz氏との深い友情にあるという、パーソナルな話から始まりました。

「私たちは15年来の親友で、ポーランドの高校時代に知り合いました。勉強も、旅行も、仕事も、長年すべてを共にしてきました。今でも最高の友人です。」

この固い絆で結ばれた二人が「世界を変えたい」と強く思うきっかけとなったのが、母国ポーランドの独特な映画文化でした。

「ポーランドで映画を観ると、男性の声も女性の声も、すべて一人のナレーターが担当するんです。想像できると思いますが、これはかなりひどい体験です。そして、この状況は今でも続いているのです。」

この原体験から、「テクノロジーには声がない。知識も、物語も、エージェントとの対話も、すべて声と共に届けられるべきだ」という確信に至り、「テクノロジーの声になる」という壮大なビジョンが生まれました。

驚異的成長と日本市場への強いコミットメント

そのビジョンは、今や世界を席巻しています。ElevenLabsは月間500万人以上のアクティブユーザーを抱え、Fortune 500企業の75%以上で利用されるなど、AI業界で最も急成長している企業の一つです。企業価値は66億ドルに達し、その勢いは留まることを知りません。

ビジネス概要と成長指標

Mati氏が特に熱を込めて語ったのが、日本市場への期待です。

「日本のイノベーションと私たちのパートナーシップの可能性は、まだ始まったばかりです。」

日本におけるビジネス状況

その言葉を裏付けるように、すでにTBS、大阪ガス、ニッポン放送といった日本の主要企業と提携。さらに、トヨタやNTTといった日本を代表する企業からの出資も受けています。日本に10人規模の専門チームを配置し、市場の深いニーズに応えるために日本語に特化した初のモデルを開発したことも、彼らの本気度を示しています。

ElevenLabsを支える3つの柱

ElevenLabsの強さは、3つの事業領域が有機的に連携している点にあります。

基礎的なAI企業としての位置づけ

事業領域 説明
1. 基礎研究 TTS(音声合成)、STT(音声認識)など、すべての技術の根幹となる独自モデルを開発。
2. クリエイティブプラットフォーム 映画の吹き替えやオーディオブック制作など、高品質な音声コンテンツを誰もが作れるツール。
3. エージェントプラットフォーム カスタマーサポートや教育など、人間のように自然な対話が可能なAIエージェントを構築する基盤。

技術力の源泉:世界をリードする基礎研究

ElevenLabsの「スーパーパワー」は、その卓越した研究開発力にあります。人間らしい自然な感情を表現できるTTSモデルや、100言語に対応する高精度なSTTモデルを自社で開発。さらに、プロンプトから音楽や効果音を生成するモデルも手掛けています。

研究開発と製品群

講演では、その実力を示す日本語のデモが披露されました。

デモ1: 成田悠輔氏との連携で生まれた声

成田悠輔氏のAI音声デモ

🔊 デモ音声を再生

デモ2: 感情豊かな物語の読み聞かせ

「日本語の漢字では感情を表現するのが非常に難しいのですが、私たちはそれを解決しました。」

🔊 デモ音声を再生

コンテンツ制作の未来:クリエイティブプラットフォーム

ElevenLabsは、単なる音声生成に留まりません。音声、音楽、効果音を映像と組み合わせ、プロレベルの編集までを一貫して行えるクリエイティブプラットフォームを提供。特に、日本のアニメなどを海外展開する際のローカライゼーションに力を入れています。

クリエイティブプラットフォーム概要

「元の声優の声を維持したまま、他言語に吹き替えることができます。将来的には、あらゆるコンテンツでこれが当たり前になることを期待しています。」

ビジネスを変革する力:エージェントプラットフォーム

講演の後半で特に焦点が当てられたのが、企業のデジタルトランスフォーメーションを加速させるエージェントプラットフォームです。

プロダクションエージェントプラットフォーム

これは、STT、LLM、TTSをシームレスに統合し、人間と遜色ない対話体験を実現するものです。ワイナリーの予約を想定したデモでは、その驚くべき応答速度と自然な会話の流れが示されました。

デモ3: AIエージェントとの自然な対話

1. 会話開始 2. リスニング
エージェント会話イントロ エージェント会話:リスニング
3. ラッピング提案 4. 配送手配
エージェント会話:ラッピングサービス エージェント会話:配送

🔊 デモ音声を再生

このプラットフォームは、単に会話するだけでなく、Configure(設定・連携)、Deploy(展開)、Monitor(監視)という、エンタープライズレベルの堅牢な運用サイクルをサポートしています。CEOはこれを「単なるツールではなく、組織全体のエージェントを管理するOSのようなもの」と表現しました。

1. Configure: 複雑な業務をこなす「マルチエージェント」

単一のAIにすべてを任せるのではなく、「返金担当」「予約担当」といった役割ごとに権限を分けた複数のエージェントを定義し、それらをワークフローとして組み合わせることが可能です。
例えば、返金処理のようなセンシティブな操作は、特定の条件を満たした時のみ、権限を持ったエージェントに切り替わるといった決定論的(Deterministic)な挙動を設計できます。これにより、企業は安心してAIに業務を任せることができます。

マルチエージェント統合の設定

2. Deploy: ソフトウェア開発レベルの安全な展開

デモを作るのは簡単ですが、本番導入は別物です。ElevenLabsは、バージョン管理と段階的なロールアウト機能を提供しています。
新しいエージェントを導入する際、いきなり全ユーザーに適用するのではなく、まずはトラフィックの数%だけでテストし、問題がないことを確認してから徐々に適用範囲を広げるといった運用が可能です。
講演では、Ciscoやウクライナ政府といった大規模組織での導入事例が挙げられ、数千のエージェントや省庁をまたぐ複雑な権限管理にも対応できるスケーラビリティが強調されました。

デプロイとバージョン管理

3. Monitor: 失敗から学び、進化するAI

展開して終わりではありません。プラットフォームは対話のパフォーマンスを常時監視します。
特筆すべきは、「失敗から学ぶ」仕組みです。例えば、ユーザーが怒ってしまった会話などを検出し、何が悪かったのかを分析。そのフィードバックをループさせることで、次の対話ではより適切な対応ができるよう、エージェントが自動的に最適化されていきます。

運用ループの監視

全レイヤーを自社で統合する強み

これら全てのサイクルを支えているのが、冒頭で触れた基礎研究です。CEOはこれを「プラットフォームの真のスーパーパワー」と呼びました。

ElevenLabsは、単にツールを組み合わせているのではありません。

  • STT (音声認識)
  • TTS (音声合成)
  • オーケストレーション & ターンネイキング (話者交代)

これら全ての技術レイヤーを自社で保有し、最適化しています。だからこそ、ビジネス知識(ナレッジベース)とAIをシームレスに統合し、他社には真似できない「人間のように自然で、かつ遅延のない対話」を実現できるのです。

エージェントアーキテクチャフロー

この強力な基盤が、具体的なビジネス成果を生み出しています。

導入事例:AIがもたらす圧倒的な成果

事例1: ヨーロッパの大手デジタル銀行

  • 課題: 1通話あたり15分かかっていた長い待ち時間と高額な運用コスト。
  • 成果: AIエージェント導入後、問題解決までの時間を85%削減(15分→2分)。クレジットカードに関する問い合わせの50%をAIが完結させ、構想からわずか2ヶ月未満で本格導入を達成。

「我々は単にコストを削減しているのではありません。顧客のために、より良く、より速い体験を創造しているのです。」 — 同行デジタルプロダクト責任者

導入事例:デジタル銀行

事例2: イタリアNo.1の不動産マーケットプレイス

  • 課題: 売り手と買い手の情報格差による機会損失。
  • 成果: AI音声エージェントが24時間365日対応し、売り手の導入率は42%から70%に増加。80%のユーザーがポジティブなフィードバックを寄せ、テキストフォームよりも質の高いリード創出に成功。

「私たちの売り手の70%が、すでにこのエージェントの利用を選択しています。これにより、購入意欲の高いリードを自動的に特定することが可能になりました。」 — 同社担当者

導入事例:不動産マーケットプレイス

AIオーディオの未来:言語の壁が消える世界へ

最後にMati氏は、ElevenLabsが描く未来のビジョンを3つのキーワードで語りました。

AIオーディオの未来

  1. 音声が主要なインターフェースに: あらゆるデバイスと声で対話し、私たちは携帯電話をポケットにしまい、もっと深く世界と関われるようになることを目指しています。
  2. 言語の壁がなくなる:

    「私がポーランド語を話しても、私の声、イントネーション、感情はそのままに、皆さんは日本語で理解できるようになる。これは旅行、カスタマーサポート、教育など、あらゆる場面で実現します。」

  3. 音声と他モダリティの融合、そしてどこでも利用可能に: 音声は単独で存在するのではなく、テキストやビジュアルといった他のモダリティと融合していくでしょう。そして、デバイス、エッジ、クラウドを問わず、旅行中やカスタマーサポートなど、あらゆる場面で技術が「どこにでも存在する」未来を実現したいと考えています。

まとめ

今回の講演は、ElevenLabsが単なる音声合成技術の企業ではなく、音声を通じて人間とテクノロジーの関わり方を根底から再定義しようとしていることを強く印象付けました。そのビジョンは、創業者の原体験という人間的なストーリーに根ざしており、だからこそ多くの人々の共感を呼ぶのでしょう。

特に、日本市場への深い理解と強いコミットメントは、日本のクリエイターや開発者にとって大きな可能性を感じさせるものでした。言語の壁が取り払われ、誰もが自由に創造し、コミュニケーションできる未来。ElevenLabsは、その未来を現実のものとするために、ここ日本からイノベーションをさらに加速させていくに違いありません。

Discussion