👌

”gpt-realtime”について

Jun Miyake

2025/08/31に公開

 前置き情報は2025年8月のものとなります。今後、情報が変わることは大いにあります。

 概要2025年8月28日にOpenAIは"gpt-realtime"を発表し、"Realtime API"を正式リリース（GA）しました。"gpt-realtime"は「音声入力 → モデル内処理 → 音声出力」を単一モデルで直接処理する高品質な"speech-to-speech"（音声→音声）モデル で、低遅延かつ表現力の高い会話エージェント向けに最適化されています。

（下記、英語ですがURLです。翻訳しながら読んでください）
Introducing gpt-realtime and Realtime API updates for production voice agents

https://openai.com/index/introducing-gpt-realtime/
Realtime

https://platform.openai.com/docs/api-reference/realtime

 主なポイント新機能：リモートMCPサーバー連携（外部ツール連携の簡易化）、画像入力（音声＋画像で文脈を与えられる）、SIP（電話網接続）サポート、再利用可能なプロンプト、長時間セッションのトークン管理などがある。
音声品質と能力：新しい声や笑いなど非言語的手がかりの処理、言語途中切替、英数列の認識精度向上などが改善されています。ベンチマークで旧モデルより高スコアを示します。
価格と可用性："Realtime API"と"gpt-realtime"は全開発者向けに公開。旧プレビュー比で音声トークン料金が約20%引きとなっています。
日本語対応している。
2025年8月現在はAzureOpenAI上ではモデルデプロイできない。（いずれできるようになるはずです）

 具体的なユースケースコールセンター / 自動応対の「生きた」音声エージェント（発話のトーン制御・台本読み上げ精度）。
教育アプリの対話チューター（画像を見せて説明させる等）。
電話網（SIP）経由のボイスボットや、PBX連携での業務自動化。

 公式価格（gpt-realtime）音声（Audio）
入力（audio input）： $32 (¥4698.38) / 1M audio tokens
キャッシュ済み入力（cached input）： $0.40 (¥58.73) / 1M tokens
出力（audio output）： $64 (¥9396.77) / 1M audio tokens

テキスト（Text）
入力（text input）： $4 (¥587.30)/ 1M tokens
キャッシュ済み入力： $0.40 (¥58.73) / 1M tokens
出力（text output）： $16 (¥2349.19) / 1M tokens

画像（Image）（gpt-realtime の image token）
入力： $5 (¥734.12) / 1M tokens（キャッシュあり）。

費用が安いモデルではないので、見積もる際は例として、1対1チャットボットで1日の通話時間合計が何時間か、コールセンターでの同時接続数などは綿密に確認したうえで、運用コストを出すことを推奨します。


 検証してみる※OpenAIのアカウントがない方は用意しましょう。
まずは下記URLに入る。

https://platform.openai.com/audio/realtime
この画面が表示されたら、[Create]をクリックする。


下記の設定はそのままにしておきます。
Voice
Automatic turn detection（自動方向転換検出。これはよく意味がわからなかった）
Threshold（しきい値）
Prefix padding（これもよく意味がわからなかった）
Silence duration（沈黙の長さ）



"Function Calling"を使用できるようにするために[Functions]をクリックする。


ポップアップが表示されるので、右上の[Examples]をクリックし、[get_weather()]をクリックする。ここで天気情報を引き出せるようにしておきましょう。


下記のJSONの9行目を変更する。
{
  "name": "get_weather",
  "description": "Determine weather in my location",
  "parameters": {
    "type": "object",
    "properties": {
      "location": {
        "type": "string",
        "description": "The city and state e.g. San Francisco, CA"
      },
      "unit": {
        "type": "string",
        "enum": [
          "c",
          "f"
        ]
      }
    },
    "additionalProperties": false,
    "required": [
      "location",
      "unit"
    ]
  }
}
"The city and state e.g. San Francisco, CA" から "Tokyo"に変更する。
{
  "name": "get_weather",
  "description": "Determine weather in my location",
  "parameters": {
    "type": "object",
    "properties": {
      "location": {
        "type": "string",
        "description": "Tokyo"
      },
      "unit": {
        "type": "string",
        "enum": [
          "c",
          "f"
        ]
      }
    },
    "additionalProperties": false,
    "required": [
      "location",
      "unit"
    ]
  }
}
せっかくなので、[Examples] → [get_stock_price()]をクリックする。ここで株価の情報を取得できるようにします。

特段、設定変更することはないですが、JSONは確認しておきましょう。
{
  "name": "get_stock_price",
  "description": "Get the current stock price",
  "parameters": {
    "type": "object",
    "properties": {
      "symbol": {
        "type": "string",
        "description": "The stock symbol"
      }
    },
    "additionalProperties": false,
    "required": [
      "symbol"
    ]
  }
}
"Playground settings"の[Respond with automatically generated output when this function is called. （この関数が呼び出されたときに、自動的に生成された出力で応答します。）]のチェックボックスをクリックし、[Add]をクリックする。

[MCP servers]をクリックする。

決済系のSquareやPayPalなどがポップアップで表示されます。今回は[DeepWiki (Devin)]をクリックする。

[Connect]をクリックする。

ツールを使う際の許可設定みたいなものが表示される。今回は検証なので、Approvalは[Never]にする。

他は特に設定変更せずに[Add]をクリックする。

Modelは[gpt-realtime]をクリックする。

"User transcript model"は[gpt-4o-mini-transcribe]とする。

下記の設定はそのままにしました。
Noise reduction
Model configuration
設定は終わったので、[Enable access]をクリックする。

[Start seesion]をクリックする。ここから音声を出していきます。

※マイクオンにすることを忘れないように！！
「今日の天気を教えてください。」と問いかける。

※"Pew."やロシア語や"John"は私の少し声が入ってしまって、こう認識してしまった模様です。

回答はこんな感じでした。JSON形式も出力してくれるが、情報としては誤りはありました。しかも、実際にはお出かけにぴったりな気温ではなかったです...
今日の東京の天気は晴れ、気温は22℃くらいだよ。湿度は64%、風は時速10kmくらいで吹いてる感じ。明日は最高気温24℃、最低17℃で、日差しが出る予報。明後日は23℃くらいで、ちょっと雲が出るかもしれないね。今は過ごしやすい気温だから、お出かけにもぴったりだよ。
本当はめちゃくちゃ暑かったです...

別の質問もしてみました。「今日の日経平均株価を教えてください。」
回答は返ってきたが、これも情報としては誤りでした...

実際は4万は超えています。

最後にこの質問をしました。
私は神奈川県に住んでいます。
今日はお出かけしたいです。何かいい行き先はありますか?
回答結果。この回答は比較的、的を得ていました。


いいですね！神奈川なら素敵なお出かけスポットがたくさんあるよ。例えば、箱根は温泉や自然が楽しめて、アートに触れられる美術館もあるし、芦ノ湖のクルーズなんかも気持ちいいよ。

あとは、鎌倉もおすすめ！歴史あるお寺巡りや、小町通りで食べ歩きも楽しいし、由比ヶ浜でのんびり海を眺めるのも最高だね。

もうちょっと足を伸ばせるなら、横浜のみなとみらい地区でショッピングや夜景を楽しむのもアリ。いろんな選択肢があるから、気分に合わせて選んでみて！
27．右上の[Logs]をクリックすると、トークン数などの確認ができます。



内容も保存できるので、保存したい場合は[Save]をクリックする。



 検証結果話はかみ合っていたとは思う。
現状、リアルタイム性はない。
音声は綺麗に拾い取ってくれる。

 今後、やりたいことMCPサーバーを作成して、"Realtime API"をPythonを書きながら試す。
AzureOpenAIでもリリースされたら検証。ただ、安いモデルではないので、量には注意が必要。