🚤

gpt-realtime ver2025-08-28を体験 - Azure AI Foundry

に公開1

Azure AI Foundryでとりあえず試してみる

https://youtu.be/R3vsDvHHCUA

※音を聞いてください。

プロンプトは下記だけ

あなたはヘッドウォータース銀行のコールセンターです。
どの業務を実行したいか判別して、名前と口座番号(7桁の数字)と電話番号を確認して。

設定はデフォルト。

ちなみに、realtime apiはWebRTCとWebSocketのどちらかでストリーミングで聞き取りが行われるみたいですが、AI FoundryのプレイグラウンドではWebSocketの方が使われていそうです。

https://learn.microsoft.com/ja-jp/azure/ai-foundry/openai/how-to/realtime-audio-websockets?tabs=preview

確認できたこと

会話の応答速度が速い
数字とか住所の理解をしっかりしてくれる(精度が高い)
間とか、フィラー的なものは無視して応答してくる
ただ、被せて喋っても、ちゃんと聞き取ってくれる
言ったことの依頼に答えてくれる(話すの遅くしてとか)

結論

単純な前捌きは任せても良さそう。

Speech to Speechなので、どこが改善されたのかわからないのですが、
少なくとも、最初の音声聞き取り精度と意図認識はかなり向上していそうです。

Azure STT-streamingのイメージ

https://youtu.be/wljSwvY_NP0

参考にですが、既存のSTTの速度もこのくらいは出るので、
オペレーター対応中の聞き取りの補助みたいなこともできると思いました。

正直、僕くらいボソボソ喋る人だと、人間のオペレーターよりちゃんと
聞き取ってくれていると思いました。

ヘッドウォータース

Discussion