OpenAI
OpenAI Playground
2024/10/02のDevDayにて、OpenAI Playgroundにプロンプトの自動生成機能が追加された。
Playground にて、簡単なプロンプトを入力して、「Create」ボタンを押すとより高品質なプロンプトを生成してくれるものだ。
Xでたまたま見かけたのだが、このプロンプト生成機能で利用されているプロンプトもリークされている(?)
Realtime API
OpenAIからRealtime APIが発表された。これにより、より高速な音声コミュニケーションを提供することができるようになった。
- https://github.com/openai/openai-realtime-api-beta?tab=readme-ov-file
- https://github.com/openai/openai-realtime-console?tab=readme-ov-file
openai-realtime-consoleをCloneすれば簡単にRealtime APIを試すことができる。
プロンプトと音声モデルの設定
Turn Detection
Turn DetectionにはServer VAD mode (Default)とNo turn detectionの2種類がある。
- Server VAD modeは、常に音声入力する電話のような場面で利用。
- No turn detectionは、push-to-talkの時に利用。
参照:https://platform.openai.com/docs/guides/realtime/responses
Interruptions
- client.cancelResponse(id, sampleCount);で途中で介入することができる
話すスピードは変えられるの?
現時点ではできなさそう。
AudioのCreate speechではspeed調整が可能なようだが、Realtime APIではそのようなパラメータは見つけられなかった。
If you would like to build a more robust implementation and play around with the reference client using your own server, we have included a Node.js Relay Server.
と書いているけど、VercelにデプロイしているNext.jsアプリケーションではどうやってRelay Serverで実装するんだろうか?
openai/swarm
マルチエージェントシステムのための軽量で使いやすいインターフェースのCookbookとして出したようだ。
例えば、Support botの場合は、
- ユーザーインターフェースエージェント:ユーザーとの最初のやり取りを処理。ニーズに基づいてヘルプセンターエージェントに振り分け。
- ヘルプセンターエージェント:具体的なヘルプ・サポートを提供。文書検索のためのQdrant VectorDBと統合されている。
オーケストレーションのイメージ
Threads
- Threadのメッセージは編集することは可能?
- Modify message
- ↑を利用することで編集可能