🚀

OpenAI Dev Dayで発表されたこと15選【プロンプトエンジニア必見 | 和訳 | まとめ】

ますみ / 生成AIエンジニア

2023/11/07に公開

はじめまして、ますみです！
株式会社Galirage（ガリレージ）という「生成AIに特化して、システム開発・アドバイザリー支援・研修支援をしているIT企業」で、代表をしております^^
OpenAI社の初めてのカンファレンスである「OpenAI Dev Day 2023」が2023年11月6日に開催されました！！！

この記事では、その内容をまとめていきたいと思います◎
ChatGPTやLangChainの基礎知識について先に学んでおきたい方は、こちらを先にご覧ください◎
https://zenn.dev/umi_mori/books/chatbot-chatgpt

https://zenn.dev/umi_mori/books/prompt-engineer
!文字よりも「動画の方が理解しやすい」という方はこちらをご覧ください◎
https://youtu.be/bmFA-UlJ1Xg
!【OpenAI Dev Day 2024】

また、最新のOpenAI Dev Day 2024についても、記事にしたため、こちらもご覧ください^^
https://zenn.dev/umi_mori/articles/openai-dev-day-2024

 OpenAI Dev Day 2023とは？OpenAI Dev Day 2023とは、OpenAI社が初めて開催したカンファレンスです。

このカンファレンスは、2023年11月6日にサンフランシスコで開催されました。
https://devday.openai.com/


OpenAI Dev Dayのページの画面

 まとめいきなりですが、本記事のまとめです。

今回のカンファレンスで、主に次の15個が発表されました。
GPT-4 Turbo（128K）の登場
GPT-3.5 Turboの改善
Assistants APIの登場
APIの新モダリティへの対応
モデルのカスタマイズ化の強化
APIの低価格化
Rate Limitの引き上げ
Copyright Shieldの登場
Whisper v3の登場
Consistency Decoderのオープンソース化
GPTsの登場
GPT Storeの登場
ChatGPT Plusの情報鮮度の向上
ChatGPTウェブアプリのUIの刷新
ファイル読み込み機能の追加

 1. GPT-4 Turbo（128K）の登場GPT-4が大幅改善されました！
今回の新しいGPT-4 Turboは、次の特徴を持ちます。


評価基準
GPT-4
GPT-4-32K
GPT-4 Turbo


Context Window
8K
32K
128K

価格（入力）
$0.03 / 1K tokens
$0.06 / 1K tokens
$0.01 / 1K tokens

価格（出力）
$0.06 / 1K tokens
$0.12 / 1K tokens
$0.03 / 1K tokens

!Context Windowとは、「最大の入出力の合計トークン数」を表します。
たとえば、Context Windowが8Kの場合は、4Kのトークン数が入力された場合、出力は4Kのトークン数の長さに制限されます。
トークン数について詳しく知りたい方は、こちらをご参照ください。
ちなみに、128KのContext Windowは、PDF約300ページ以上のテキストに相当するため、かなり感動的ですね！
これまで、プロンプトエンジニアの多くは、Context Windowの制約に悩まされていたと思います。
この技術的な問題に対応するために、RAGを使用したり、Map ReduceやMap RerankやRefineを使用したり、Fine-tuningを駆使したりしていたと思います。
それに加えて、GPT-4は、API利用料金がGPT-3.5に比べて、かなり高価格であることが問題としてありました。

そのため、今回の「Context Windowの拡張」と「利用料金の引き下げ」は、GPT-4のビジネス現場での活用を、より現実的にする発表だったことは間違いないでしょう。
もしもGPT-4 Turboを使用したい場合は、OpenAIのAPIのモデル名としてgpt-4-1106-previewを指定することで使用できます（しばらくすると、デフォルトでこちらのモデルに切り替わることが想定されます）。
また、次のようなアップデートも発表されました。

Parallel function callingの登場
Function Callingによる複数関数処理の検知ができるようになりました。
「電気とエアコンをつけて」というような指示があったときに、二つの関数を実行するためのレスポンスを返せるようになりました
参考：Function Callingとは？


Function Callingの精度改善
Function Callingの判別精度が向上しました。
参考：Function Callingとは？


形式指定の精度改善
「CSV形式で出力してください」というような形式指定の精度が向上しました。


JSON modeによる形式指定機能の登場
APIに対して、「response_format」を指定すると、必ずJSON形式で出力できるようになりました。
参考：JSON mode


Seedの指定による出力再現性の確保
LLMの出力の再現性を確保するために、シード値を指定できるようになりました。
参考：Seed


 2. GPT-3.5 Turboの改善より安価に利用できるGPT-3.5の性能改善も行われました。

具体的な改善点は下記のとおりです。

16KのContext Windowのデフォルト化
GPT-3.5のデフォルトのContext Windowは、4Kから16Kに拡張されました。


形式指定の精度改善
「CSV形式で出力してください」というような形式指定の精度が向上しました（38%の精度改善がされたそうです）。


Parallel function callingの登場
Function Callingによる複数関数処理の検知ができるようになりました。
「電気とエアコンをつけて」というような指示があったときに、二つの関数を実行するためのレスポンスを返せるようになりました
参考：Function Callingとは？


JSON modeによる形式指定機能の登場
APIに対して、「response_format」を指定すると、必ずJSON形式で出力できるようになりました。
参考：JSON mode

上記の新機能は、gpt-3.5-turbo-1106というモデル名を指定することで利用可能です（しばらくすると、デフォルトでこちらのモデルに切り替わることが想定されます）。

 3. Assistants APIの登場便利すぎる新APIが発表されました（鼓動の高まりがすごい。。。）！
簡単にいうと、Assistants APIとは「Function Calling・Code Interpreter・RetrievalなどのTool群を事前登録して利用できるAI AgentのAPI」です。

これまでLangChainを用いて、実装はできたのですが、それをOpenAIが公式で発表した上、APIとしてラッピングされているため、利便性は計り知れません。
ここでは、Assistants APIをPlaygroundで動かした時の様子を紹介します。
以下の例では、「Prompt Engineer Bot」というボットを作成して、「あなたは、プロンプトエンジニアについて詳しいアシスタントです。プロンプトデザイン入門の教材を参考にして、回答してください。」という指示と「プロンプトデザイン入門」という教材PDFを提供しています。
このAssistant APIに、「プロンプトデザインにおいて、大切なことを3つ教えて。」というプロンプトを渡すと、教材の情報をもとにして、回答が生成されました。


Assistants APIのデモ画面
また、このAssistants APIにおいては、チャットのスレッドの状態がサーバー側で保持されるようになりました。

具体的には、threadというidを使用して、チャットの状態を管理します。
これは、さらっと発表されていたことなのですが、プロンプトエンジニアの中では、かなり待ち望んでいた機能になります。
また、ここで渡されたデータに関しては、モデルの学習には使用されないという風に言及されているため、その点もご安心ください。

 4. APIの新モダリティへの対応今回の発表において、次の3つのモデルがAPIで利用できるようになりました！
GPT-4 Turbo with vision
DALL·E 3
Text-to-speech (TTS)

 4-1. GPT-4 Turbo with visionGPT-4 Turbo with visionとは、「画像を読み込めるGPT-4」です。

手描きウェブデザインをプログラミングコードに変換したり、ホワイトボードの文字やチャートから要約を作成したりすることができます。
すぐにAPIを利用したい場合は、gpt-4-vision-previewのモデルを指定することで利用できます。

また、APIの利用料金としては、入力する画像の画素数に応じて、追加で料金がかかるそうです。

たとえば、1080×1080 pixelsの画像をGPT-4 Turboに入れると、$0.00765（約1.15円）かかるそうです。

 4-2. DALL·E 3DALL·E 3とは、「OpenAIが開発した画像生成AI」です。

プロンプトと呼ばれる指示文を入力すると、その指示に応じた画像を生成することが可能です。
APIを利用したい場合は、dall-e-3のモデルを指定することで利用できます。

 4-3. Text-to-speech (TTS)Text-to-speech (TTS)とは、「OpenAIが開発した音声生成AI」です。

テキストの内容を読み上げることができます。

現在は、6種類の声が用意されています。
APIを利用したい場合は、tts-1とtts-1-hdのモデルを指定することで利用できます。

tts-1-hdの方が、品質が良いモデルになります。

 5. モデルのカスタマイズ化の強化Assistants APIよりも、より強力に知識を組み込んだり、スタイルの指定させたりする方法として、「Fine-tuning（微調整）」と「Retraining（再学習）」があります。
特に、企業特化モデルや業界特化モデルを構築する際に使われます。
これまでは、GPT-3.5までしかFine-tuningをできませんでしたが、今回ついに「GPT-4のFine-tuning」ができることが発表されました（限定的なユーザーのみ対象）。
さらに、極少数のユーザーに対して、Retrainingができることも発表されました。

こちらは、かなり高額のコストがかかる上、最低でも、十億以上のトークン数を用意する必要があるそうです。
また、再学習は、データサイエンスの知識が必要になるため、専門的なデータサイエンティストの力も必要でしょう。

もしも興味のある方は、こちらの応募フォームからご登録ください。
私自身、元々IBMのデータサイエンティストとして働いていた経験があるため、もしもFine-tuningやRetrainingについて、より詳しく相談したい方がいらっしゃれば、ぜひご連絡ください。

 6. APIの低価格化モデルの性能改善が行われて、API料金がかなり安くなりました。

※ 以下、1K tokensあたりの価格です。

※ 正確な情報については、公式ページをご参照ください。

 6-1. GPT-4 Turbo

モデルの種類
GPT-4（旧）
GPT-4-32K（旧）
GPT-4 Turbo（新）


入力プロンプト
$0.03
$0.06
$0.01

出力プロンプト
$0.06
$0.12
$0.03


 6-2. GPT-3.5 Turbo

モデルの種類
GPT-3.5 Turbo 4K（旧）
GPT-3.5 Turbo 16K（旧）
GPT-3.5 Turbo 16K（新）


入力プロンプト
$0.0015
$0.003
$0.001

出力プロンプト
$0.002
$0.004
$0.002


 6-3. GPT-3.5 Turbo（fine-tuning）

モデルの種類
GPT-3.5 Turbo 4K fine-tuning（旧）
GPT-3.5 Turbo 4K and 16K fine-tuning（新）


学習
$0.008
$0.00

入力プロンプト
$0.012
$0.003

出力プロンプト
$0.016
$0.006


 7. Rate Limitの引き上げ今回のアップデートで、GPT-4のユーザーに対して、1分間あたりで処理できるトークン数（TPM; tokens per minute）が倍になりました。

RateLimitErrorは、かなり出てくるエラーなため、これは実務で使う上で、非常に嬉しいアップデートですね！

 8. Copyright Shieldの登場Copyright Shieldとは、著作権保護機能であり、確実ではありませんが、著作権に対する対処が強化されたそうです。

法的な訴訟が生じるリスクを持っているため、このような事前対策は非常に助かりますね。

 9. Whisper v3の登場Whisperという「文字起こしAI」のモデルの性能改善がされました！

具体的には、Whisper large-v3というモデルが発表されました。

 10. Consistency Decoderのオープンソース化ここは、かなり技術者向けのニッチな話になります。

Consistency Decoderとは、Stable DiffusionにおけるVAE decoderの代わりに使用されているデコーダーになります。

これは、VAE decoerを使用するよりも精度が高いと知られており、そのデコーダおのソースコードがオープンソース化されたそうです。

 11. GPTsの登場GPTsが登場しました！！！

簡単にいうと、GPTsとは、「特定のタスクに特化するようにカスタマイズされたChatGPTのモデルの総称」です。

たとえば、ボードゲームのルールを学んだり、子どもに数学を教えたり、ステッカーをデザインしたりする例が公式のホームページでは紹介されています。
また、このGPTを作るツールである「GPT Builder」も発表されました！
このGPTを作成するにはコーディングのスキルは必要なく、個人用、会社内部用、または公開用として作ることができます。

GPTを作るプロセスは、一般的なチャットに加えて、現在のChatGPT PlusとEnterpriseユーザーが使用できている「追加知識の提供、ウェブ検索、画像作成、データ分析」などのスキルを選ぶことを含みます。
GPT Builderについて詳しく知りたい方は、こちらをご参照ください◎

https://zenn.dev/umi_mori/articles/gpt-builder-how-to-start
また、GPTsの開発にはプライバシーと安全性が考慮されています。

ユーザー目線に立った時、次の2つの点が明記されていました。
自分のデータをコントロールすることができ、開発者にチャットデータは共有されないように設定することができます。
GPTがサードパーティのAPIを使用する場合、データをそのAPIに送信するかどうかを選択できます。
逆に、開発者目線に立った時、次の2つのことが明記されていました。
チャットデータをモデルの改善に使用するかどうかを選択することができます。
開発者は、自分の身元を検証する必要があるそうです。
また、このGPTsには、プラグインのように、独自のカスタムアクションを定義することで、内蔵された機能に加えて1つ以上のAPIをGPTに利用させることができます。

すなわち、GPTsをデータベース、メール、またはショッピングアシスタントとして接続できます。

 12. GPT Storeの登場GPT Storeとは、「作成したGPTsを公開して、共有できるストア」です。
2023年11月後半にはGPT Storeが開始され、ユーザーはオリジナルのGPTsを作成し共有できるようになります。

ここで構築されたGPTsは、検索可能になり、リーダーボードに表示される可能性があります。
将来的には、GPTを使用する人の数に基づいて、貢献者が収益を得ることができるようになる予定だそうです。

 13. ChatGPT Plusの情報鮮度の向上ChatGPT Plusのチャットにおいて、2023年4月までのデータをもとに、回答がされるようになりました。

これにより、より最新の情報をもとにした回答ができるようになりました。

 14. ChatGPTウェブアプリのUIの刷新（GPT4 All Tools）これまでは、画像生成機能（DALL·E 3）、ブラウジング機能、データ分析機能などを使う際は、各機能のタブへ変更する必要がありました。

そこで、ChatGPTウェブアプリのUIの刷新されて、「GPT4 All Tools」という機能が追加されました。
GPT4 All Toolsとは、「一つのページ内で画像生成機能機能・ブラウジング機能・データ分析機能をよしなに切り替えてくれるGPT4」です。


刷新されたUIの画面

 15. ファイル読み込み機能の追加新しくPDFなどのファイルを読み込ませて、その内容についてチャット処理をできるようになるそうです。

 最後に最後まで読んでくださり、ありがとうございました！

この記事を通して、少しでもあなたの学びに役立てば幸いです！
!【📩 仕事の相談はこちら 📩】

お仕事の相談のある方は、下記のフォームよりお気軽にご相談ください。

https://forms.gle/G5g1SJ7BBZw7oXYA7
もしもメールでの問い合わせの方がよろしければ、下記のメールアドレスへご連絡ください。
info*galirage.com（*を@に変えてご送付ください）
宣伝：もしもよかったらご覧ください^^『AIとコミュニケーションする技術（インプレス出版）』という書籍を出版しました🎉
これからの未来において「変わらない知識」を見極めて、生成AIの業界において、読まれ続ける「バイブル」となる本をまとめ上げました。
かなり自信のある一冊なため、もしもよろしければ、ご一読いただけますと幸いです^^

 参考文献https://devday.openai.com/
https://openai.com/blog/new-models-and-developer-products-announced-at-devday
https://openai.com/blog/introducing-gpts
https://www.youtube.com/watch?v=U9mJuUkhUzk

評価基準	GPT-4	GPT-4-32K	GPT-4 Turbo
Context Window	8K	32K	128K
価格（入力）	$0.03 / 1K tokens	$0.06 / 1K tokens	$0.01 / 1K tokens
価格（出力）	$0.06 / 1K tokens	$0.12 / 1K tokens	$0.03 / 1K tokens

モデルの種類	GPT-4（旧）	GPT-4-32K（旧）	GPT-4 Turbo（新）
入力プロンプト	$0.03	$0.06	$0.01
出力プロンプト	$0.06	$0.12	$0.03

モデルの種類	GPT-3.5 Turbo 4K（旧）	GPT-3.5 Turbo 16K（旧）	GPT-3.5 Turbo 16K（新）
入力プロンプト	$0.0015	$0.003	$0.001
出力プロンプト	$0.002	$0.004	$0.002

モデルの種類	GPT-3.5 Turbo 4K fine-tuning（旧）	GPT-3.5 Turbo 4K and 16K fine-tuning（新）
学習	$0.008	$0.00
入力プロンプト	$0.012	$0.003
出力プロンプト	$0.016	$0.006

Galirage Inc.

株式会社Galirageのテックブログです！ Galirageでは、生成AIのシステム開発・コンサルティング・研修を行なっております。 ▼ 問い合わせ先 ▼ info@galirage.com

OpenAI Dev Day 2023とは？

まとめ

1. GPT-4 Turbo（128K）の登場

2. GPT-3.5 Turboの改善

3. Assistants APIの登場

4. APIの新モダリティへの対応

4-1. GPT-4 Turbo with vision

4-2. DALL·E 3

4-3. Text-to-speech (TTS)

5. モデルのカスタマイズ化の強化

6. APIの低価格化

6-1. GPT-4 Turbo

6-2. GPT-3.5 Turbo

6-3. GPT-3.5 Turbo（fine-tuning）

7. Rate Limitの引き上げ

8. Copyright Shieldの登場

9. Whisper v3の登場

10. Consistency Decoderのオープンソース化

11. GPTsの登場

12. GPT Storeの登場

13. ChatGPT Plusの情報鮮度の向上

14. ChatGPTウェブアプリのUIの刷新（GPT4 All Tools）

15. ファイル読み込み機能の追加

最後に

参考文献

Discussion