🤖

GPTs 覚え書き (Actions/Voice chat/Conversation starters)

2023/12/25に公開

プロンプトと Knowledge、Actions によって独自の Chatbot を構築できる GPTs。

LLM プロダクト開発の最初期の検証が高速に行えるため、BizDev 的にかなり助かります。

しかし、現時点の GPTs、特に Actions 機能には、「できる・できない」がはっきり存在しています。

社内でもよく質問されることが多いため、メモ代わりに記録しておきます。

Actions ではどんな API レスポンスが受け取れるか

Actions は、GPTs が Function Calling ライクに API を Call し、そのレスポンスをコンテクストに挿入した上で返答してくれる機能です。

JSON または YAML で定義したスキーマに沿って、GPT-4 が APIリクエストを作成してくれます。
API Key (Basic、Bearer、Customヘッダー)、OAuth の認証情報を裏側に環境変数的に保存しておくことができます。
リクエストボディはテキストですので、画像やバイナリデータは送信できません。
また、レスポンスも JSON として解釈されますので、バイナリは受け取ることができません（エラーになります）。
しかし、画像データを URL 文字列で受け取れば、チャット UI 上で Markdown として表示させることは可能です。
- Base64 などでエンコードされた画像はもしかしたら Code Interpreter でデコードできるかもしれません（要検証）。
- なので、もし Whisper や TTS、StableDiffusion などで画像や音声などを出力する API を Actions で叩かせたい場合は、API 側で一時データを保存し、応答は URL 文字列として渡してあげる必要があります。
- 私が作成した下の GPTs では、imgix で生成した署名付き URL を、 Cloudflare Workers で作成した API エンドポイントを介して返却しています。

ログインするとコメントできます