🤖

GPTs 覚え書き (Actions/Voice chat/Conversation starters)

2023/12/25に公開

プロンプトと Knowledge、Actions によって独自の Chatbot を構築できる GPTs。

LLM プロダクト開発の最初期の検証が高速に行えるため、BizDev 的にかなり助かります。

しかし、現時点の GPTs、特に Actions 機能には、「できる・できない」がはっきり存在しています。

社内でもよく質問されることが多いため、メモ代わりに記録しておきます。

Actions ではどんな API レスポンスが受け取れるか

Actions は、GPTs が Function Calling ライクに API を Call し、そのレスポンスをコンテクストに挿入した上で返答してくれる機能です。

  • JSON または YAML で定義したスキーマに沿って、GPT-4 が APIリクエストを作成してくれます。
  • API Key (Basic、Bearer、Customヘッダー)、OAuth の認証情報を裏側に環境変数的に保存しておくことができます。
  • リクエストボディはテキストですので、画像やバイナリデータは送信できません。
  • また、レスポンスも JSON として解釈されますので、バイナリは受け取ることができません(エラーになります)。
  • しかし、画像データを URL 文字列で受け取れば、チャット UI 上で Markdown として表示させることは可能です。
    • Base64 などでエンコードされた画像はもしかしたら Code Interpreter でデコードできるかもしれません(要検証)。
    • なので、もし Whisper や TTS、StableDiffusion などで画像や音声などを出力する API を Actions で叩かせたい場合は、API 側で一時データを保存し、応答は URL 文字列として渡してあげる必要があります。
    • 私が作成した下の GPTs では、imgix で生成した署名付き URL を、 Cloudflare Workers で作成した API エンドポイントを介して返却しています。

GPTs で音声入力やボイスチャットができるか

  • できません。
    • 音声入力したい場合は、OS や IME の機能を使用するしかありません。
  • ただし、アプリ版 ChatGPT であれば、右下のヘッドホンボタンからボイスで対話することができます。なんと、ちゃんと GPTs にも対応しています。

Conversation starters の仕様

  • チャットを始める前の最初の画面にだけ表示される、LINE のクイックリプライのような最初のメッセージの選択肢のボタンです
  • 無制限に登録できそうな UI をしていますが、最初の 4 つしかユーザーに表示されません。
    • モバイルではさらに少なく最初の 2 つしか表示されません。
  • シャッフルなどもされないため、5 つ目以降に書いた内容はメモにしかなりません
  • しかも入力画面でドラッグなどで位置の入れ替えもできません。
  • なんとかしてくれ!

おすすめの使い方

  • 「使い方を教えて」というようなボタンを置いておいて、オンボーディングとして使う
  • 「Start in English」などのボタンをおいておいて、疑似 i18n 対応

Discussion