🚀

OpenAI Dev Dayで発表されたこと15選【プロンプトエンジニア必見 | 和訳 | まとめ】

2023/11/07に公開

はじめまして、ますみです!

株式会社Galirage(ガリレージ)という「生成AIに特化して、システム開発・アドバイザリー支援・研修支援をしているIT企業」で、代表をしております^^

自己紹介.png

OpenAI社の初めてのカンファレンスである「OpenAI Dev Day 2023」が2023年11月6日に開催されました!!!
この記事では、その内容をまとめていきたいと思います◎

ChatGPTやLangChainの基礎知識について先に学んでおきたい方は、こちらを先にご覧ください◎

https://zenn.dev/umi_mori/books/chatbot-chatgpt
https://zenn.dev/umi_mori/books/prompt-engineer

https://youtu.be/bmFA-UlJ1Xg

OpenAI Dev Day 2023とは?

OpenAI Dev Day 2023とは、OpenAI社が初めて開催したカンファレンスです。
このカンファレンスは、2023年11月6日にサンフランシスコで開催されました。

https://devday.openai.com/


OpenAI Dev Dayのページの画面

まとめ

いきなりですが、本記事のまとめです。
今回のカンファレンスで、主に次の15個が発表されました。

  1. GPT-4 Turbo(128K)の登場
  2. GPT-3.5 Turboの改善
  3. Assistants APIの登場
  4. APIの新モダリティへの対応
  5. モデルのカスタマイズ化の強化
  6. APIの低価格化
  7. Rate Limitの引き上げ
  8. Copyright Shieldの登場
  9. Whisper v3の登場
  10. Consistency Decoderのオープンソース化
  11. GPTsの登場
  12. GPT Storeの登場
  13. ChatGPT Plusの情報鮮度の向上
  14. ChatGPTウェブアプリのUIの刷新
  15. ファイル読み込み機能の追加

1. GPT-4 Turbo(128K)の登場

GPT-4が大幅改善されました!

今回の新しいGPT-4 Turboは、次の特徴を持ちます。

評価基準 GPT-4 GPT-4-32K GPT-4 Turbo
Context Window 8K 32K 128K
価格(入力) $0.03 / 1K tokens $0.06 / 1K tokens $0.01 / 1K tokens
価格(出力) $0.06 / 1K tokens $0.12 / 1K tokens $0.03 / 1K tokens

ちなみに、128KのContext Windowは、PDF約300ページ以上のテキストに相当するため、かなり感動的ですね!

これまで、プロンプトエンジニアの多くは、Context Windowの制約に悩まされていたと思います。

この技術的な問題に対応するために、RAGを使用したり、Map ReduceやMap RerankやRefineを使用したり、Fine-tuningを駆使したりしていたと思います。

それに加えて、GPT-4は、API利用料金がGPT-3.5に比べて、かなり高価格であることが問題としてありました。
そのため、今回の「Context Windowの拡張」と「利用料金の引き下げ」は、GPT-4のビジネス現場での活用を、より現実的にする発表だったことは間違いないでしょう。

もしもGPT-4 Turboを使用したい場合は、OpenAIのAPIのモデル名としてgpt-4-1106-previewを指定することで使用できます(しばらくすると、デフォルトでこちらのモデルに切り替わることが想定されます)。

また、次のようなアップデートも発表されました。

  1. Parallel function callingの登場
    • Function Callingによる複数関数処理の検知ができるようになりました。
    • 「電気とエアコンをつけて」というような指示があったときに、二つの関数を実行するためのレスポンスを返せるようになりました
    • 参考:Function Callingとは?
  2. Function Callingの精度改善
  3. 形式指定の精度改善
    • 「CSV形式で出力してください」というような形式指定の精度が向上しました。
  4. JSON modeによる形式指定機能の登場
    • APIに対して、「response_format」を指定すると、必ずJSON形式で出力できるようになりました。
    • 参考:JSON mode
  5. Seedの指定による出力再現性の確保
    • LLMの出力の再現性を確保するために、シード値を指定できるようになりました。
    • 参考:Seed

2. GPT-3.5 Turboの改善

より安価に利用できるGPT-3.5の性能改善も行われました。
具体的な改善点は下記のとおりです。

  1. 16KのContext Windowのデフォルト化
    • GPT-3.5のデフォルトのContext Windowは、4Kから16Kに拡張されました。
  2. 形式指定の精度改善
    • 「CSV形式で出力してください」というような形式指定の精度が向上しました(38%の精度改善がされたそうです)。
  3. Parallel function callingの登場
    • Function Callingによる複数関数処理の検知ができるようになりました。
    • 「電気とエアコンをつけて」というような指示があったときに、二つの関数を実行するためのレスポンスを返せるようになりました
    • 参考:Function Callingとは?
  4. JSON modeによる形式指定機能の登場
    • APIに対して、「response_format」を指定すると、必ずJSON形式で出力できるようになりました。
    • 参考:JSON mode

上記の新機能は、gpt-3.5-turbo-1106というモデル名を指定することで利用可能です(しばらくすると、デフォルトでこちらのモデルに切り替わることが想定されます)。

3. Assistants APIの登場

便利すぎる新APIが発表されました(鼓動の高まりがすごい。。。)!

簡単にいうと、Assistants APIとは「Function CallingCode InterpreterRetrievalなどのTool群を事前登録して利用できるAI AgentのAPI」です。
これまでLangChainを用いて、実装はできたのですが、それをOpenAIが公式で発表した上、APIとしてラッピングされているため、利便性は計り知れません。

ここでは、Assistants APIをPlaygroundで動かした時の様子を紹介します。

以下の例では、「Prompt Engineer Bot」というボットを作成して、「あなたは、プロンプトエンジニアについて詳しいアシスタントです。プロンプトデザイン入門の教材を参考にして、回答してください。」という指示と「プロンプトデザイン入門」という教材PDFを提供しています。

このAssistant APIに、「プロンプトデザインにおいて、大切なことを3つ教えて。」というプロンプトを渡すと、教材の情報をもとにして、回答が生成されました。


Assistants APIのデモ画面

また、このAssistants APIにおいては、チャットのスレッドの状態がサーバー側で保持されるようになりました。
具体的には、threadというidを使用して、チャットの状態を管理します。

これは、さらっと発表されていたことなのですが、プロンプトエンジニアの中では、かなり待ち望んでいた機能になります。

また、ここで渡されたデータに関しては、モデルの学習には使用されないという風に言及されているため、その点もご安心ください。

4. APIの新モダリティへの対応

今回の発表において、次の3つのモデルがAPIで利用できるようになりました!

  1. GPT-4 Turbo with vision
  2. DALL·E 3
  3. Text-to-speech (TTS)

4-1. GPT-4 Turbo with vision

GPT-4 Turbo with visionとは、「画像を読み込めるGPT-4」です。
手描きウェブデザインをプログラミングコードに変換したり、ホワイトボードの文字やチャートから要約を作成したりすることができます。

すぐにAPIを利用したい場合は、gpt-4-vision-previewのモデルを指定することで利用できます。
また、APIの利用料金としては、入力する画像の画素数に応じて、追加で料金がかかるそうです。
たとえば、1080×1080 pixelsの画像をGPT-4 Turboに入れると、$0.00765(約1.15円)かかるそうです。

4-2. DALL·E 3

DALL·E 3とは、「OpenAIが開発した画像生成AI」です。
プロンプトと呼ばれる指示文を入力すると、その指示に応じた画像を生成することが可能です。

APIを利用したい場合は、dall-e-3のモデルを指定することで利用できます。

4-3. Text-to-speech (TTS)

Text-to-speech (TTS)とは、「OpenAIが開発した音声生成AI」です。
テキストの内容を読み上げることができます。
現在は、6種類の声が用意されています。

APIを利用したい場合は、tts-1tts-1-hdのモデルを指定することで利用できます。
tts-1-hdの方が、品質が良いモデルになります。

5. モデルのカスタマイズ化の強化

Assistants APIよりも、より強力に知識を組み込んだり、スタイルの指定させたりする方法として、「Fine-tuning(微調整)」と「Retraining(再学習)」があります。

特に、企業特化モデルや業界特化モデルを構築する際に使われます。

これまでは、GPT-3.5までしかFine-tuningをできませんでしたが、今回ついに「GPT-4のFine-tuning」ができることが発表されました(限定的なユーザーのみ対象)。

さらに、極少数のユーザーに対して、Retrainingができることも発表されました。
こちらは、かなり高額のコストがかかる上、最低でも、十億以上のトークン数を用意する必要があるそうです。

また、再学習は、データサイエンスの知識が必要になるため、専門的なデータサイエンティストの力も必要でしょう。
もしも興味のある方は、こちらの応募フォームからご登録ください。

私自身、元々IBMのデータサイエンティストとして働いていた経験があるため、もしもFine-tuningやRetrainingについて、より詳しく相談したい方がいらっしゃれば、ぜひご連絡ください。

6. APIの低価格化

モデルの性能改善が行われて、API料金がかなり安くなりました。
※ 以下、1K tokensあたりの価格です。
※ 正確な情報については、公式ページをご参照ください。

6-1. GPT-4 Turbo

モデルの種類 GPT-4(旧) GPT-4-32K(旧) GPT-4 Turbo(新)
入力プロンプト $0.03 $0.06 $0.01
出力プロンプト $0.06 $0.12 $0.03

6-2. GPT-3.5 Turbo

モデルの種類 GPT-3.5 Turbo 4K(旧) GPT-3.5 Turbo 16K(旧) GPT-3.5 Turbo 16K(新)
入力プロンプト $0.0015 $0.003 $0.001
出力プロンプト $0.002 $0.004 $0.002

6-3. GPT-3.5 Turbo(fine-tuning)

モデルの種類 GPT-3.5 Turbo 4K fine-tuning(旧) GPT-3.5 Turbo 4K and 16K fine-tuning(新)
学習 $0.008 $0.00
入力プロンプト $0.012 $0.003
出力プロンプト $0.016 $0.006

7. Rate Limitの引き上げ

今回のアップデートで、GPT-4のユーザーに対して、1分間あたりで処理できるトークン数(TPM; tokens per minute)が倍になりました。
RateLimitErrorは、かなり出てくるエラーなため、これは実務で使う上で、非常に嬉しいアップデートですね!

8. Copyright Shieldの登場

Copyright Shieldとは、著作権保護機能であり、確実ではありませんが、著作権に対する対処が強化されたそうです。
法的な訴訟が生じるリスクを持っているため、このような事前対策は非常に助かりますね。

9. Whisper v3の登場

Whisperという「文字起こしAI」のモデルの性能改善がされました!
具体的には、Whisper large-v3というモデルが発表されました。

10. Consistency Decoderのオープンソース化

ここは、かなり技術者向けのニッチな話になります。
Consistency Decoderとは、Stable DiffusionにおけるVAE decoderの代わりに使用されているデコーダーになります。
これは、VAE decoerを使用するよりも精度が高いと知られており、そのデコーダおのソースコードがオープンソース化されたそうです。

11. GPTsの登場

GPTsが登場しました!!!
簡単にいうと、GPTsとは、「特定のタスクに特化するようにカスタマイズされたChatGPTのモデルの総称」です。
たとえば、ボードゲームのルールを学んだり、子どもに数学を教えたり、ステッカーをデザインしたりする例が公式のホームページでは紹介されています。

また、このGPTを作るツールである「GPT Builder」も発表されました!

このGPTを作成するにはコーディングのスキルは必要なく、個人用、会社内部用、または公開用として作ることができます。
GPTを作るプロセスは、一般的なチャットに加えて、現在のChatGPT PlusとEnterpriseユーザーが使用できている「追加知識の提供、ウェブ検索、画像作成、データ分析」などのスキルを選ぶことを含みます。

GPT Builderについて詳しく知りたい方は、こちらをご参照ください◎
https://zenn.dev/umi_mori/articles/gpt-builder-how-to-start

また、GPTsの開発にはプライバシーと安全性が考慮されています。
ユーザー目線に立った時、次の2つの点が明記されていました。

  • 自分のデータをコントロールすることができ、開発者にチャットデータは共有されないように設定することができます。
  • GPTがサードパーティのAPIを使用する場合、データをそのAPIに送信するかどうかを選択できます。

逆に、開発者目線に立った時、次の2つのことが明記されていました。

  • チャットデータをモデルの改善に使用するかどうかを選択することができます。
  • 開発者は、自分の身元を検証する必要があるそうです。

また、このGPTsには、プラグインのように、独自のカスタムアクションを定義することで、内蔵された機能に加えて1つ以上のAPIをGPTに利用させることができます。
すなわち、GPTsをデータベース、メール、またはショッピングアシスタントとして接続できます。

12. GPT Storeの登場

GPT Storeとは、「作成したGPTsを公開して、共有できるストア」です。

2023年11月後半にはGPT Storeが開始され、ユーザーはオリジナルのGPTsを作成し共有できるようになります。
ここで構築されたGPTsは、検索可能になり、リーダーボードに表示される可能性があります。

将来的には、GPTを使用する人の数に基づいて、貢献者が収益を得ることができるようになる予定だそうです。

13. ChatGPT Plusの情報鮮度の向上

ChatGPT Plusのチャットにおいて、2023年4月までのデータをもとに、回答がされるようになりました。
これにより、より最新の情報をもとにした回答ができるようになりました。

14. ChatGPTウェブアプリのUIの刷新(GPT4 All Tools)

これまでは、画像生成機能(DALL·E 3)、ブラウジング機能、データ分析機能などを使う際は、各機能のタブへ変更する必要がありました。
そこで、ChatGPTウェブアプリのUIの刷新されて、「GPT4 All Tools」という機能が追加されました。

GPT4 All Toolsとは、「一つのページ内で画像生成機能機能・ブラウジング機能・データ分析機能をよしなに切り替えてくれるGPT4」です。


刷新されたUIの画面

15. ファイル読み込み機能の追加

新しくPDFなどのファイルを読み込ませて、その内容についてチャット処理をできるようになるそうです。

最後に

最後まで読んでくださり、ありがとうございました!
この記事を通して、少しでもあなたの学びに役立てば幸いです!

おまけ①:Raggle

RAGの精度改善に挑戦しませんか?

Raggleにて、「法務RAGシステムの性能改善ハッカソン」を開催中です!(10月20日に募集締切)

Raggleは、RAGの性能改善技術を競い合い、AIエンジニアのスキルアップを支援するプラットフォームです🥇

優勝者(GOLD🥇)の賞金は、なんと30万円!!!

SILVERは10万円、BRONZEでも5万円の賞金を用意しています!

また、参加賞として、大会終了後に「RAG精度改善ハンドブック」を贈呈予定なため、初学者の方もぜひ挑戦してみてください 🔰

みなさん、奮ってご参加ください🔥

※ 生成AIエンジニアの権利を守るため、投稿されたソースコードの著作権は、投稿者に帰属する規約としているため、その点もご安心ください◎

▼ エントリーはこちら ▼
https://bit.ly/raggle_zenn

おまけ②:書籍出版のお知らせ

ついに『AIとコミュニケーションする技術(インプレス出版)』という書籍の事前予約が始まりました🎉

これからの未来において「変わらない知識」を見極めて、生成AIの業界において、読まれ続ける「バイブル」となる本をまとめ上げました。

かなり自信のある一冊なため、もしもよろしければ、ご一読いただけますと幸いです^^

▼ Amazonの事前予約はこちらから ▼
https://amzn.to/3ME8mLF

おまけ③:生成AIアカデミー

より専門的な「生成AIエンジニア人材」を目指しませんか?

そんな方々に向けて、「生成AIアカデミー(旧:生成AIエンジニア塾)」というプログラムを始めました🎉

最終的なゴールとして、『エンタープライズ向けの生成AIシステムを構築するためのスキルを習得し、大手案件で活躍できる人材』を目標とします。

また、一人一人にしっかりと向き合って、メンタリングをできるようにするため、現在メンバーの人数制限をしております。本気度やスキルレベルの高い人から、順番にご案内しております。

▼ 登録はこちらから ▼
https://bit.ly/generative_ai_engineer_school_by_zenn

おまけ④:AI Newsletter for Biz

最新のAIニュースの情報を収集しませんか?

AI Newsltter for Bizは、ビジネスパーソン向けに「AIニュース」を定期配信する完全無料のニュースレターです📩

一人でも多くの方にとって、「AI人材としてのスキルアップ」につながれば幸いです^^

また、現在、登録者限定で「明日から使える 無料AIサービス3選」のPDFを配布中です 🎁
※ ご登録完了のメールに、PDFリンクを添付いたします。

▼ 登録はこちらから ▼
https://bit.ly/ai_newsletter_for_biz_zenn

おまけ⑤:生成AIの仕事をしたい仲間を募集中 🤝

弊社Galirageでは常に、40-50件ほどの生成AI案件が走っております。

そして、ほとんどが「生成AIの案件(RAGシステム開発 / 精度改善の研究開発など)」の仕事になります!

かなり人手が不足しており、以下のポジションの仲間を募集しています💪

  • RAGエンジニア(RAG / LangChain / Python)
  • バックエンドエンジニア(Python / FastAPI)
  • フロントエンジニア(Next.js / TypeScript)
  • Azureエンジニア(AOAI / AI Search)
  • UI/UXデザイナー
  • 生成AIリサーチャー(研究開発 / 論文執筆)
  • 生成AIコンサルタント
  • PM / PMO

ご興味がある方は、下記のフォームよりお気軽にご連絡ください!

https://forms.gle/XMd19irZU4Fi7VAQ9

採用基準は下記の通りです。
  • 平日の日中に動ける方だと嬉しいですが、週8時間くらいの副業でもOKです!
  • 開始時期は、直近だと嬉しいですが、遠い未来でもOKです!まずはカジュアルに話しましょう😊
  • 年齢は不問です!現状は、平均年齢は30歳前後の会社です!
  • 「スキルセット」よりも「カルチャーマッチ・仕事への姿勢・ものづくりへのワクワク」を重視します。
    • 10月には新しく10名採用しました。
    • その内、エンジニア経験が3年未満の方は、4名いました。
    • スキルについては、ジョインした後に、必要に応じて、キャッチアップする時間を作ります。
    • 弊社は、正社員7名、業務委託80名の組織で構成されており、業務委託の仲間に支えられているため、正社員と業務委託の間にあまり差をつけていません。
    • 契約形態に関わらず、一緒に働く仲間として受け入れたその日から、大切な仲間です!
    • 新卒や転職の正社員採用もしていますが、業務委託での仕事を通して、お互いにWin-Winだと判断できた方のみを採用しています。
    • 私自身、フリーランスを5年間やっていたため、個人事業主と正社員のメリデメは両方の立場から理解しています。
  • 人手不足ではあるものの、採用基準をかなり厳しくしています。目の前の売上よりも、カルチャーのマッチする人だけを入れることにこだわっています。
  • ちなみに、弊社のリーダーを紹介したプロフィールページはこちらです!
    • Galirageに、本当に素敵な方が多いことは、保証します!

参考文献

https://devday.openai.com/

https://openai.com/blog/new-models-and-developer-products-announced-at-devday

https://openai.com/blog/introducing-gpts

https://www.youtube.com/watch?v=U9mJuUkhUzk

Discussion