”gpt-realtime”について
前置き
情報は2025年8月のものとなります。今後、情報が変わることは大いにあります。
概要
2025年8月28日にOpenAIは"gpt-realtime"を発表し、"Realtime API"を正式リリース(GA)しました。"gpt-realtime"は「音声入力 → モデル内処理 → 音声出力」を単一モデルで直接処理する高品質な"speech-to-speech"(音声→音声)モデル で、低遅延かつ表現力の高い会話エージェント向けに最適化されています。
(下記、英語ですがURLです。翻訳しながら読んでください)
- Introducing gpt-realtime and Realtime API updates for production voice agents
https://openai.com/index/introducing-gpt-realtime/ - Realtime
https://platform.openai.com/docs/api-reference/realtime
主なポイント
- 新機能:リモートMCPサーバー連携(外部ツール連携の簡易化)、画像入力(音声+画像で文脈を与えられる)、SIP(電話網接続)サポート、再利用可能なプロンプト、長時間セッションのトークン管理などがある。
- 音声品質と能力:新しい声や笑いなど非言語的手がかりの処理、言語途中切替、英数列の認識精度向上などが改善されています。ベンチマークで旧モデルより高スコアを示します。
- 価格と可用性:"Realtime API"と"gpt-realtime"は全開発者向けに公開。旧プレビュー比で音声トークン料金が約20%引きとなっています。
- 日本語対応している。
- 2025年8月現在はAzureOpenAI上ではモデルデプロイできない。(いずれできるようになるはずです)
具体的なユースケース
- コールセンター / 自動応対の「生きた」音声エージェント(発話のトーン制御・台本読み上げ精度)。
- 教育アプリの対話チューター(画像を見せて説明させる等)。
- 電話網(SIP)経由のボイスボットや、PBX連携での業務自動化。
公式価格(gpt-realtime)
- 音声(Audio)
- 入力(audio input): $32 (¥4698.38) / 1M audio tokens
- キャッシュ済み入力(cached input): $0.40 (¥58.73) / 1M tokens
- 出力(audio output): $64 (¥9396.77) / 1M audio tokens
- テキスト(Text)
- 入力(text input): $4 (¥587.30)/ 1M tokens
- キャッシュ済み入力: $0.40 (¥58.73) / 1M tokens
- 出力(text output): $16 (¥2349.19) / 1M tokens
- 画像(Image)(gpt-realtime の image token)
- 入力: $5 (¥734.12) / 1M tokens(キャッシュあり)。
費用が安いモデルではないので、見積もる際は例として、1対1チャットボットで1日の通話時間合計が何時間か、コールセンターでの同時接続数などは綿密に確認したうえで、運用コストを出すことを推奨します。
- 入力: $5 (¥734.12) / 1M tokens(キャッシュあり)。
検証してみる
※OpenAIのアカウントがない方は用意しましょう。
- まずは下記URLに入る。
https://platform.openai.com/audio/realtime - この画面が表示されたら、[Create]をクリックする。
- 下記の設定はそのままにしておきます。
- Voice
- Automatic turn detection(自動方向転換検出。これはよく意味がわからなかった)
- Threshold(しきい値)
- Prefix padding(これもよく意味がわからなかった)
- Silence duration(沈黙の長さ)
- "Function Calling"を使用できるようにするために[Functions]をクリックする。
- ポップアップが表示されるので、右上の[Examples]をクリックし、[get_weather()]をクリックする。ここで天気情報を引き出せるようにしておきましょう。
- 下記のJSONの9行目を変更する。
{
"name": "get_weather",
"description": "Determine weather in my location",
"parameters": {
"type": "object",
"properties": {
"location": {
"type": "string",
"description": "The city and state e.g. San Francisco, CA"
},
"unit": {
"type": "string",
"enum": [
"c",
"f"
]
}
},
"additionalProperties": false,
"required": [
"location",
"unit"
]
}
}
- "The city and state e.g. San Francisco, CA" から "Tokyo"に変更する。
{
"name": "get_weather",
"description": "Determine weather in my location",
"parameters": {
"type": "object",
"properties": {
"location": {
"type": "string",
"description": "Tokyo"
},
"unit": {
"type": "string",
"enum": [
"c",
"f"
]
}
},
"additionalProperties": false,
"required": [
"location",
"unit"
]
}
}
-
せっかくなので、[Examples] → [get_stock_price()]をクリックする。ここで株価の情報を取得できるようにします。
-
特段、設定変更することはないですが、JSONは確認しておきましょう。
{
"name": "get_stock_price",
"description": "Get the current stock price",
"parameters": {
"type": "object",
"properties": {
"symbol": {
"type": "string",
"description": "The stock symbol"
}
},
"additionalProperties": false,
"required": [
"symbol"
]
}
}
-
"Playground settings"の[Respond with automatically generated output when this function is called. (この関数が呼び出されたときに、自動的に生成された出力で応答します。)]のチェックボックスをクリックし、[Add]をクリックする。
-
[MCP servers]をクリックする。
-
決済系のSquareやPayPalなどがポップアップで表示されます。今回は[DeepWiki (Devin)]をクリックする。
-
[Connect]をクリックする。
-
ツールを使う際の許可設定みたいなものが表示される。今回は検証なので、Approvalは[Never]にする。
-
他は特に設定変更せずに[Add]をクリックする。
-
Modelは[gpt-realtime]をクリックする。
-
"User transcript model"は[gpt-4o-mini-transcribe]とする。
-
下記の設定はそのままにしました。
- Noise reduction
- Model configuration
-
設定は終わったので、[Enable access]をクリックする。
-
[Start seesion]をクリックする。ここから音声を出していきます。
※マイクオンにすることを忘れないように!! -
「今日の天気を教えてください。」と問いかける。
※"Pew."やロシア語や"John"は私の少し声が入ってしまって、こう認識してしまった模様です。
-
回答はこんな感じでした。JSON形式も出力してくれるが、情報としては誤りはありました。しかも、実際にはお出かけにぴったりな気温ではなかったです...
今日の東京の天気は晴れ、気温は22℃くらいだよ。湿度は64%、風は時速10kmくらいで吹いてる感じ。明日は最高気温24℃、最低17℃で、日差しが出る予報。明後日は23℃くらいで、ちょっと雲が出るかもしれないね。今は過ごしやすい気温だから、お出かけにもぴったりだよ。
本当はめちゃくちゃ暑かったです...
-
別の質問もしてみました。「今日の日経平均株価を教えてください。」
-
回答は返ってきたが、これも情報としては誤りでした...
実際は4万は超えています。
- 最後にこの質問をしました。
私は神奈川県に住んでいます。
今日はお出かけしたいです。何かいい行き先はありますか?
- 回答結果。この回答は比較的、的を得ていました。
いいですね!神奈川なら素敵なお出かけスポットがたくさんあるよ。例えば、箱根は温泉や自然が楽しめて、アートに触れられる美術館もあるし、芦ノ湖のクルーズなんかも気持ちいいよ。
あとは、鎌倉もおすすめ!歴史あるお寺巡りや、小町通りで食べ歩きも楽しいし、由比ヶ浜でのんびり海を眺めるのも最高だね。
もうちょっと足を伸ばせるなら、横浜のみなとみらい地区でショッピングや夜景を楽しむのもアリ。いろんな選択肢があるから、気分に合わせて選んでみて!
27.右上の[Logs]をクリックすると、トークン数などの確認ができます。
- 内容も保存できるので、保存したい場合は[Save]をクリックする。
検証結果
- 話はかみ合っていたとは思う。
- 現状、リアルタイム性はない。
- 音声は綺麗に拾い取ってくれる。
今後、やりたいこと
- MCPサーバーを作成して、"Realtime API"をPythonを書きながら試す。
- AzureOpenAIでもリリースされたら検証。ただ、安いモデルではないので、量には注意が必要。
Discussion