Softbank World 2025で披露した音声応対AI「X-Ghost」の裏側
こんにちは。
Gen-AX CTOの木田です。
先日開催された Softbank World 2025 にて、私たちGen-AXが開発中の音声応対ソリューション X-Ghost を発表しました。
イベント公式ページはこちら:
今回は、秋頃に予定している続報に先駆けて、講演内でお見せしたデモビデオ と、その裏側にある技術について少しだけご紹介したいと思います。
X-Ghostとは?
「X-Ghost」は、Gen-AXが開発を進めている 自律思考型の音声応対ソリューション です。
単なる「ボイスボット」ではなく、リアルタイムで状況を理解し、相手の話に応じて柔軟かつスピーディに応答する次世代の音声インターフェースを目指しています。
現在は主に コンタクトセンター業務の自動化 を中心に開発を進めており、第一弾の実運用として 三井住友カード様への先行導入 を予定しています。
Softbank World 2025では、X-Ghostを使って実際にAIオペレーターと顧客が電話越しにやり取りを行う様子を、デモビデオとして公開しました。
まだご覧になっていない方は、上のイベントページからご登録の上、
基調講演「AX with SoftBank 〜次の一手がここにある」 (デモビデオは38分頃から)
をご覧ください。
いかがでしょうか?
注目していただきたいのは、AIの返答の自然さ・スピード感・文脈理解力です。
なぜここまで“人間らしい”音声応対ができるのか?
従来の多くのボイスボットは、ルールベースの言語処理に依存しています。
これはつまり「あらかじめ決められた問い」にしか反応できず、実際の対話で起き得る 様々な例外ケースへの対応が難しい ことを意味しています。
また、音声認識 → テキスト処理 → 音声合成、という3つの処理を逐次的に行うため、どうしても 応答が遅くなってしまう という課題もありました。
一方、X-Ghostの上記デモビデオでは、これらの課題を根本的に解決するために、OpenAI社の「Realtime API」 を活用しています。
Realtime APIとは?
Realtime API は、OpenAIが提供するAPIで、音声の入力から応答生成、音声出力までをリアルタイムに処理できるのが最大の特徴です。
従来の大規模言語モデル(LLM)は主にテキストベースでのインタラクションに特化していましたが、Realtime APIでは、「音声+テキスト」のマルチモーダルな対話が可能になります。
Realtime APIには、以下のような注目すべき特徴があります。
-
低レイテンシ・バージイン対応
ユーザの音声入力を受けてから、AIが音声で返答を開始するまでの レイテンシ(待ち時間)が非常に短い のが大きな特長です。
また、AIが話している途中でユーザが話しかけると、AIが話を中断して相手の発話を優先する「バージイン」 にも対応しています。
これにより、 「テンポのよい双方向会話」 を可能にしています。 -
Function Callingによる外部連携
Realtime APIは、 Function Calling にも対応しており、ユーザの発話内容を解釈して、外部のシステムやAPIを動的に呼び出すことが可能です。たとえば、「先月のカード明細を教えて」といった発話に対し、AIが適切にバックエンドの明細取得APIを呼び出し、その結果を自然な音声で返す──といった高度な業務応対もスムーズに実現できます。 -
コンテキストに応じた自然な感情表現
Realtime APIが生成する音声は、単なる文字列の読み上げではありません。 会話の文脈や感情トーンに応じて声の強弱や抑揚を自動的に調整する ため、まるで人間のような自然で聞き取りやすい応対が可能になります。たとえば、謝罪する場面では丁寧にトーンを落としたり、質問に答える場面では明快に言い切るなど、状況に応じたふるまいの変化も表現できます。
ちなみに、このRealtime APIは2024年11月に一般向けプレビューとして公開されましたが、私たちGen-AXでは、それ以前から クローズドプレビュー版へのアクセス権 を得て、いち早く検証と実装に取り組んできました。
私はこれまで四半世紀にわたり音声技術に関わってきましたが、このRealtime APIに初めて触れたときの 「AIが人と自然に会話できる」 体験の衝撃は今でも忘れられません。
Realtime APIにも“限界”はある
とはいえ、現状のRealtime APIはまだプレビュー版ということもあり、いつでも完璧に動くわけではありません。現時点では以下をはじめとする様々な課題があります:
-
インストラクション(プロンプト)への従順性が低い
-
日本語能力の不足(読み誤り、住所など固有名詞の理解など)
-
挙動の不安定性(脈絡のない内容の音声を長時間出力するなど)
そのため、Gen-AXではこうした課題に対応するための 独自の制御機構 をRealtime APIの外側に設け、こうした課題の影響を最小化して安定的に対話が行えるような仕組みの構築に取り組んでいます。
また、より安定性を重視した、従来型の「音声認識→LLM→音声合成」の構成も並行して検討を行っています。
最後に
今回は、Softbank World 2025で公開したX-Ghostデモビデオの裏側にあるRealtime APIについて、簡単に紹介させていただきました。
Realtime APIを制御するために私たちが取り組んでいる技術の詳細については、今後こちらのテックブログで随時記事にしていく予定です。
X-Ghostがどのように進化していくのか、ぜひ今後もご注目ください!
最後に、Gen-AXでは、私達と一緒に最先端のAI技術をプロダクトに応用していくエンジニアを大募集中です!少しでもご興味があれば、是非お話させていただけるとありがたいです。
Discussion