🚤
gpt-realtime ver2025-08-28を体験 - Azure AI Foundry
Azure AI Foundryでとりあえず試してみる
※音を聞いてください。
プロンプトは下記だけ
あなたはヘッドウォータース銀行のコールセンターです。
どの業務を実行したいか判別して、名前と口座番号(7桁の数字)と電話番号を確認して。
設定はデフォルト。
ちなみに、realtime apiはWebRTCとWebSocketのどちらかでストリーミングで聞き取りが行われるみたいですが、AI FoundryのプレイグラウンドではWebSocketの方が使われていそうです。
確認できたこと
会話の応答速度が速い
数字とか住所の理解をしっかりしてくれる(精度が高い)
間とか、フィラー的なものは無視して応答してくる
ただ、被せて喋っても、ちゃんと聞き取ってくれる
言ったことの依頼に答えてくれる(話すの遅くしてとか)
結論
単純な前捌きは任せても良さそう。
Speech to Speechなので、どこが改善されたのかわからないのですが、
少なくとも、最初の音声聞き取り精度と意図認識はかなり向上していそうです。
Azure STT-streamingのイメージ
参考にですが、既存のSTTの速度もこのくらいは出るので、
オペレーター対応中の聞き取りの補助みたいなこともできると思いました。
正直、僕くらいボソボソ喋る人だと、人間のオペレーターよりちゃんと
聞き取ってくれていると思いました。
Discussion
TANAKA KOKI ( ´∀` )