🗣️

OpenAI Realtime APIの利用方法

2024/10/02に公開

2024/10/1 OpenAIからspeech-to-speechのAPI提供が発表されました。9月にスマホ版で実装されたばかりなので、かなり早いです。
https://platform.openai.com/docs/guides/realtime
スマホ版を使ってみましたが、まだ人間レベルではないなと感じました。応答速度や感情表現は素晴らしいですが、日本語は少し違和感があり、少しの音で出力が中断される、規制が厳しい(歌が歌えない)という印象です。

今回はOpenAIからRealtime API用のコンソールが提供されていたので、実行してみました。
https://github.com/openai/openai-realtime-console

まずはZipをダウンロード、解凍してコピーします。
次にコマンドプロンプトを起動し、cd "保存したフォルダのパス"と入力

例)cd "C:\デスクトップ\openai-realtime-console-main"

次にnode.jsのパッケージをインストール

npm i

サーバーを起動

npm start

すると以下の画面に遷移し、APIキーの入力を求められます。

その後画面中央下のconnectをクリックし、音声を入力します。

Discussion