Open5

OpenAI

pontaponta

OpenAI Playground

2024/10/02のDevDayにて、OpenAI Playgroundにプロンプトの自動生成機能が追加された。

https://x.com/OpenAIDevs/status/1841176443306295685

Playground にて、簡単なプロンプトを入力して、「Create」ボタンを押すとより高品質なプロンプトを生成してくれるものだ。

Xでたまたま見かけたのだが、このプロンプト生成機能で利用されているプロンプトもリークされている(?)

pontaponta

Realtime API

OpenAIからRealtime APIが発表された。これにより、より高速な音声コミュニケーションを提供することができるようになった。

openai-realtime-consoleをCloneすれば簡単にRealtime APIを試すことができる。

プロンプトと音声モデルの設定

https://github.com/openai/openai-realtime-console/blob/6ea4dba795fee868c60ea9e8e7eba7469974b3e9/src/pages/ConsolePage.tsx#L379-L382

Turn Detection

https://github.com/openai/openai-realtime-console/blob/6ea4dba795fee868c60ea9e8e7eba7469974b3e9/src/pages/ConsolePage.tsx#L263-L265

Turn DetectionにはServer VAD mode (Default)とNo turn detectionの2種類がある。

  • Server VAD modeは、常に音声入力する電話のような場面で利用。
  • No turn detectionは、push-to-talkの時に利用。

参照:https://platform.openai.com/docs/guides/realtime/responses

Interruptions

https://github.com/openai/openai-realtime-console/blob/6ea4dba795fee868c60ea9e8e7eba7469974b3e9/src/pages/ConsolePage.tsx#L236-L239

https://github.com/openai/openai-realtime-console/blob/6ea4dba795fee868c60ea9e8e7eba7469974b3e9/src/pages/ConsolePage.tsx#L472-L478

  • client.cancelResponse(id, sampleCount);で途中で介入することができる

https://platform.openai.com/docs/guides/realtime/handling-interruptions

https://x.com/kenn/status/1844528993002979768

話すスピードは変えられるの?

現時点ではできなさそう。

AudioのCreate speechではspeed調整が可能なようだが、Realtime APIではそのようなパラメータは見つけられなかった。

pontaponta

openai/swarm

マルチエージェントシステムのための軽量で使いやすいインターフェースのCookbookとして出したようだ。
https://x.com/shyamalanadkat/status/1844888546014052800?s=46

例えば、Support botの場合は、

  • ユーザーインターフェースエージェント:ユーザーとの最初のやり取りを処理。ニーズに基づいてヘルプセンターエージェントに振り分け。
  • ヘルプセンターエージェント:具体的なヘルプ・サポートを提供。文書検索のためのQdrant VectorDBと統合されている。

オーケストレーションのイメージ