🤗

OpenAI DevDay の各セッションの要約まとめ (by GPT4-Turbo)

2023/11/14に公開

これは何?

  • OpenAI DevDay ではサム・アルトマンの基調講演のほかにも、多数のセッションが行われていました。
  • セッションの動画が公開されていましたが、全部見てる時間ないのでGPT4-Turboに要約を書いてもらいました。
  • 自分だけで要約読んで捨てるのももったいないので、皆さまにお裾分けします。
  • まだ動画見れてなく、内容の妥当性は自分で確認してないので、間違ってる点などあればご指摘ください。

New Products: A Deep Dive

https://www.youtube.com/watch?v=pq34V_V5j18

tl;dr

OpenAIのKrithikaがマーケティングリーダーとして登壇し、GPTとChatGPTについて話しました。開発者向けのAssistant APIの力強さと、カスタム機能を追加することでの可能性について説明しました。ThomasとNickがデモを行い、GPTの指示、アクション、追加知識の3つの要素を紹介しました。

次に、Assistant APIを使ってアプリや製品内でエージェントのような体験を構築する方法について話しました。OlivierとMichelleが新しいAssistance APIをデモし、開発者がAIアシスタントを簡単に組み込めるようにするための新機能とツールを紹介しました。

最後に、今後のアップデートについて触れ、マルチモーダルAPI、独自のコード実行、リアルタイムアプリケーション向けの非同期サポートなどが提供される予定であることを明らかにしました。開発者に対し、新APIで何を構築するかフィードバックを求めました。

詳細な要約

OpenAIのKrithikaが司会を務めるこのセッションでは、OpenAIが目指す「エージェントのような未来」に向けた製品の紹介とデモンストレーションが行われました。まず、GPT(Generative Pre-trained Transformer)とChatGPTについて話し、開発者向けのAssistant APIの力強さとカスタム機能の追加による拡張性について触れました。これにより、開発者は自分自身だけでなく、世界中の何百万人ものユーザーにとって強力なツールを作成できると説明しました。

ThomasとNickがステージに上がり、GPTのプロジェクトについて詳しく説明しました。ChatGPTは発表から1年未満で驚くほどの反響を呼び、GPT-4、音声、視覚、コードインタープリターなどの機能が追加されました。彼らは、開発者がこの技術を最大限に活用する方法を知っていると強調しました。GPTをカスタマイズして独自のChatGPTを作成し、世界と共有する方法をデモンストレーションしました。GPTは指示、アクション、追加知識の3つの要素で構成されており、それぞれのコンセプトについて3つのデモを行いました。

最初のデモでは、GPTに「海賊」のように話すよう指示することで、GPTに個性を与える方法を示しました。次に、Assistant APIを使用して、アプリや製品内でエージェントのような体験を構築する方法について説明しました。さらに、GPTにカスタムアクションを追加することで、例えばAsana APIを介してタスクを管理するデモを行いました。

次に、GPTに追加知識を提供することで、モデルが持っていない情報についても質問に答えられるようにするデモを行いました。この例では、Samの基調講演のスクリプトをGPTに読み込ませ、それに基づいて情報を要約するようにしました。

最後に、これらすべての要素を組み合わせた「Mood Tunes」というデモを行いました。これは、写真から感情を読み取り、それに合ったミックステープを作成し、さらにはSpotifyでトラックを再生し、部屋の照明を変えるなど、複数のアクションを組み合わせたものでした。

その後、OlivierとMichelleが登壇し、新しいAssistance APIについて説明しました。このAPIは、開発者が自分のアプリケーション内で世界クラスのアシスタントを構築できるようにするものです。アシスタント、スレッド、メッセージという3つの主要なプリミティブに基づいており、開発者が直面する一般的な問題点を解決するために設計されています。また、コードインタープリターや知識検索などのツールも紹介されました。

Michelleは、地理学のチューターアプリを例に、Assistance APIを使ったアシスタントの作成プロセスをデモンストレーションしました。彼女は、APIを使用してアシスタントを作成し、スレッドを管理し、ユーザーのメッセージに応答する方法を示しました。また、コードインタープリターを使用して、ユーザーが提供したスプレッドシートからチャートを生成するデモも行いました。さらに、APIドキュメントをアシスタントに取り込ませ、特定のAPIに関する質問に答えさせるデモも行いました。

最後に、Olivierは、今後のAssistance APIの改善計画について説明しました。これには、マルチモーダル対応、独自のコード実行の持ち込み、リアルタイムアプリケーション向けの非同期サポートなどが含まれています。彼らは、開発者がこの新しいAPIを使って何を構築するかを楽しみにしており、フィードバックや機能リクエストを歓迎しています。

A Survey of Techniques for Maximizing LLM Performance

https://www.youtube.com/watch?v=ahnGLM-RC1Y

tl;dr

OpenAIの開発者会議で、ジョン・アラードとコリンがLLM(大規模言語モデル)の性能を最大化するためのテクニックについて話しました。彼らは、プロンプトエンジニアリング、リトリーバル拡張生成(RAG)、ファインチューニングなどの手法を紹介し、それぞれの利点と適用シナリオを説明しました。また、実際のベンチマーク(Spider 1.0)を用いてこれらの手法を組み合わせることで、SOTA (State of the Art)に近い結果が得られることを示しました。

詳細な要約

OpenAIの開発者会議でのブレイクアウトセッションにおいて、ジョン・アラード(OpenAIのファインチューニング製品チームのエンジニアリングリード)とコリン(ヨーロッパのソリューションプラクティスを率いる)が、大規模言語モデル(LLM)の性能を最大化するための様々な技術について話し合いました。

ジョンは、OpenAIでのファインチューニングの進展について紹介し、3.5 Turboのファインチューニングのローンチや、開発者コミュニティからの反響、新機能の追加、UIの導入など、過去数ヶ月の成果を共有しました。彼らは、さまざまな業界の開発者と協力し、LLMを使用して問題を解決する方法について学んだ経験を共有することを目指しています。

コリンは、LLMの最適化が難しい理由として、信号とノイズを分離することの難しさ、性能の抽象的な測定、適切なアプローチの選択などを挙げました。彼は、問題のカテゴリーに応じて最適化のアプローチを変えるべきだと説明し、フレームワークとツールを用いて問題を解決する方法を示しました。

彼らは、LLMの最適化が線形ではなく、プロンプトエンジニアリング、検索拡張生成(RAG)、ファインチューニングなど、異なる問題を解決するための異なる手法があることを説明しました。これらの手法は、モデルが問題を解決するために必要なコンテキスト(何を知る必要があるか)と、モデルがどのように行動する必要があるか(どのような方法で行動するか)の2つの軸で最適化できると述べました。

プロンプトエンジニアリングでは、明確な指示の書き方、複雑なタスクをより単純なサブタスクに分割すること、GPTに考える時間を与えること、変更を体系的にテストすることなどが重要であると強調しました。

RAGについては、モデルに特定のドメインのコンテンツへのアクセスを提供し、新しい情報を導入すること、幻覚を減らすことなどが有効であると説明しました。しかし、広範なドメインの理解を埋め込むことや、新しい言語形式やスタイルを教えることには向いていないとも述べました。

ファインチューニングに関しては、既存のトレーニング済みモデルを新しい、よりドメイン固有のデータセットでトレーニングを続けるプロセスであり、特定のタスクに適したモデルを作成することができると説明しました。ファインチューニングは、モデルが既に持っている知識を強調するのに適しており、新しい知識を追加するためには適していないと指摘しました。

最後に、彼らはSpider 1.0ベンチマークを用いて、実際にこれらの技術を適用する実践的なチャレンジを行いました。自然言語の質問とデータベーススキーマから正しいSQLクエリを生成するタスクで、プロンプトエンジニアリング、RAG、ファインチューニングを組み合わせることで、ステートオブジアートに近い結果を得ることができました。

このセッションでは、LLMの性能を最大化するための理論と実践の両方について詳細に議論され、参加者にはLLMの最適化に関する洞察と実用的なモデルを提供しました。

The Business of AI

https://www.youtube.com/watch?v=knHW-p31R0c

tl;dr

OpenAIのセールス責任者であるAliisa Rosenthalが、Salesforce、Typeform、Shopifyの顧客と共にAI製品の統合について議論した。各社はAIを製品に組み込む際の課題や、AI製品の開発プロセスの違い、倫理的なAIの実践、およびAIのビジネスへの応用について意見を交わした。また、AIの価格設定や顧客のワークフローへの影響についても話し合われた。

詳細な要約

OpenAIのセールス部門責任者であるAliisa Rosenthalが、AIを製品や組織に統合する方法について顧客やパートナーと日々協力していることを紹介しました。彼女は、Salesforceの倫理的AI実践の主任アーキテクトであるKathy Baxter、Typeformの製品責任者であるOji Udezue、Shopifyの製品ディレクターであるMiqdad Jafferをパネリストとして迎え、AI製品開発のビジネスについて議論しました。

Kathy Baxterは、SalesforceでAIの倫理的な開発に関するベストプラクティスを研究し、教育する役割を担っています。SalesforceはOpenAIの密接なパートナーであり、いくつかのイニシアティブで協力しています。Oji Udezueは、Twitter、Calendly、Atlassianなどで製品管理をリードした経験を持ち、TypeformではAIを中心に一般的なフォーム体験を再考した「Formless」を今年初めに発表しました。Miqdad Jafferは、Shopify製品とプラットフォーム全体にAIを統合する責任を持ち、Sidekickを含む複数のプロジェクトを担当しています。

パネリストたちは、AI製品の開発における最も困難な部分について意見を交わしました。Miqdadは、最終的な製品の完成度をどのように決定するか、そしてAI製品開発が従来のソフトウェア開発プロセスと異なる非決定論的な性質を持つことが挑戦的であると述べました。Ojiは、AIを単なる追加層としてではなく、顧客のワークフローに深く組み込むことの重要性を強調しました。Kathyは、技術の急速な進歩に伴い、信頼と倫理を維持するための評価と研究の最新情報に常に注意を払う必要があると指摘しました。

Formlessの立ち上げについて、Ojiは、Typeformの既存の製品に統合する代わりに、独立した製品として発表した背景について説明しました。これにより、より迅速な学習と実験が可能になり、顧客のワークフローをより会話的で人間的にすることを目指しています。Miqdadは、ShopifyがAIイニシアティブを開始する際に同様のトレードオフを検討したかどうかについて話し、ユーザーが常にコントロールを保持できるようにすることの重要性を強調しました。

AIの使用に関しては、明らかでない方法でAIを使用している例として、Miqdadは、ユーザーがキーワードを追加してコンテンツを生成できる「オートライト」機能や、最適な送信時間を自動的に決定する機能などを挙げました。また、ShopifyのAIアシスタント「Sidekick」を使用して、ユーザーが「夏らしいテーマに変更する」といった指示を出すことで、デザインの意図とツールの理解を組み合わせてコードを生成する方法についても説明しました。

AIの安全性を確保しながらイノベーションのバランスを取る方法について、Kathyは、Salesforceが2016年から倫理的に責任を持ってAIを作成することに焦点を当てており、信頼、顧客成功、イノベーション、平等、持続可能性といったコアバリューから信頼できるAI原則に自然に移行したことを話しました。また、AIをB2B製品に統合する際に考慮すべきより具体的なガイドラインを開発したことも共有しました。

AI製品の価格設定に関する議論では、OjiとMiqdadは、GPT-4のコストをどのように考慮し、製品に価格を設定するかについての意思決定プロセスを共有しました。Ojiは、顧客にとって価値がある機能に対しては価格を高く設定し、価格実験を行うことの重要性を強調しました。Miqdadは、商人の成功を最優先し、それによって収益を上げるというShopifyの原則に基づいて、現在はすべてのユーザーにAI機能を提供しているが、将来的には何らかの形で課金を導入する可能性があると述べました。

最後に、パネリストたちはAI製品開発の未来についての最終的な考えを共有しました。Kathyは、ビジネスがより効率的かつ生産的になるための素晴らしい機会であり、すべての人にとって安全で代表的なものにするために積極的に取り組む必要があると述べました。Ojiは、AIがすべての製品に浸透し、コラボレーションとイノベーションのワークフローが完全に変わると予測しました。Miqdadは、現在の問題がすぐに解決されるため、今すぐにでもAIの構築と実験を始めるべきだと強調しました。

セッションの最後に、Aliisa Rosenthalは、参加者にAIを製品や組織に統合し、持続可能で収益性の高いビジネスを構築するためのインスピレーションを与えることを願っていると述べ、パネリストに感謝の意を表しました。

The New Stack and Ops for AI

https://www.youtube.com/watch?v=XGJNo8TpuVA

tl;dr

OpenAIの開発者プラットフォームを率いるSherwinと、数百のスタートアップと企業を支援してきたShyamalが、AIアプリケーションをプロトタイプから本番環境へ移行するプロセスについて話しました。彼らは、ユーザーエクスペリエンスの構築、モデルの不確実性の管理、アプリケーションの反復評価、スケール管理のためのオーケストレーションなど、アプリケーションをスケールする際のフレームワークを提供しました。また、LLM Ops(大規模言語モデル運用)という新しい分野が登場し、LLMを使用したアプリケーション構築のユニークな課題に対応していることを紹介しました。

詳細な要約

このYouTubeビデオでは、OpenAIの開発者プラットフォームを率いるシャーウィンと、数百のスタートアップや企業と協力してプラットフォーム上で素晴らしい製品を構築することに取り組んでいるシャマルが、AIアプリケーションをプロトタイプ段階から本番環境へ移行するプロセスについて話し合っています。

まず、ChatGPTが2022年11月に導入されてからまだ1年も経っておらず、GPT-4も2023年3月にリリースされたばかりであることを指摘し、これらのモデルがどのように急速に日常生活や職場でのツールとして受け入れられ、開発者や企業によって製品に組み込まれているかを振り返ります。プロトタイプを作成することは比較的簡単ですが、本番環境への移行は非決定論的なモデルの性質のために困難が伴います。このギャップを埋めるためのフレームワークとして、スタック図を提供し、顧客が直面する課題に基づいています。

彼らは、ユーザーエクスペリエンスを向上させるための戦略として、不確実性を制御し、安全性と操作性のためのガードレールを構築することを提案します。例えば、ChatGPTでは、ユーザーがAIとのやり取りを通じてより良い質問をするためのプロンプトの提案や、AIの能力と限界を伝える通知などが導入されています。

次に、モデルの一貫性を高めるために、モデルの振る舞いを制約する新機能(JSONモードや再現可能な出力を可能にするCパラメーター)や、リアルワールドの知識(ナレッジストアやツール)に基づいてモデルをグラウンディングする方法について説明します。これにより、モデルが情報を作り出す(ハルシネーション)のを減らすことができます。

アプリケーションを自信を持って反復するためには、評価スイートを作成し、モデルのパフォーマンスを評価することが重要です。彼らは、人間のアノテーターによる評価や、AIを使ってAIを評価する自動化された評価(モデルグレードの評価)の使用を提案します。

最後に、アプリケーションのスケールを管理するために、セマンティックキャッシングや安価なモデルへのルーティングなどの戦略を紹介します。これにより、APIへのラウンドトリップの数を減らし、コストを削減することができます。

彼らは、LLM Ops(Large Language Model Operations)という新しい分野が、LLMを使用してアプリケーションを構築する際のユニークな課題に対応するために出現していることを指摘します。LLM Opsは、モデルの運用管理に必要な実践、ツール、インフラストラクチャを指し、監視、パフォーマンスの最適化、セキュリティコンプライアンス、データとエンベディングの管理、開発速度の向上、信頼性の高いテストと評価の加速などの課題に対処するのに役立ちます。

最後に、彼らは、次世代のアシスタントやエコシステムを共に構築し、発見し、開発することに興奮していると述べ、視聴者に感謝の意を表しています。

Research x Product

https://www.youtube.com/watch?v=YXiRbRacTF0

tl;dr

OpenAIのバレットとジョアンは、研究と製品開発の協力関係について話しました。彼らは、対話型インターフェースの開発過程や、モデルの行動を設計する重要性について説明しました。また、将来のモデルはより個人化され、多様なモードでの対話が可能になると述べました。

詳細な要約

OpenAIのバレットとジョアンが、研究と製品開発の協力関係について話し合ったYouTubeビデオの要約です。

バレットは、APIとChatGPTと密接に連携するポストトレーニング研究チームを率いています。ジョアンは、モデルの振る舞いに関する製品を担当しています。彼らは、OpenAIにおける研究と製品開発のユニークな関係について語り、これが世界中のユーザーや開発者に最先端の研究をもたらすのにどのように役立っているかを紹介しました。

2022年10月の例を挙げ、対話インターフェースの導入について多くの議論があったことを共有しました。当時、一般的なテキストボックスをリリースするか、コーディングやライティングなど特定の用途に特化したものをリリースするか、またはGPT-3.5を使用してリリースするか、最新のGPT-4を待つかなど、多くの不確実性がありました。最終的には、一般的なバージョンをリリースし、これが成功を収め、多くの素晴らしい製品や企業がこの技術を基に構築されることになりました。

バレットは、ポストトレーニング研究チームの役割について詳しく説明しました。このチームは、大規模な事前トレーニング済み言語モデルを適応させ、ChatGPTやAPIでユーザーに提供する前に、新しい機能を追加してモデルを最大限に有用にすることが主な責務です。インターネットを閲覧し、回答に引用を追加する能力、ユーザーがアップロードした大きなファイルを分析する能力、コードの読み書きや実行、データ分析のためのプロットを生成する能力などが含まれます。また、DALL-Eのような他のモデルを呼び出す訓練も行っています。

ジョアンは、OpenAIでの製品管理の背景と独自の側面について語りました。OpenAIの目標は、人類全体に利益をもたらす人工一般知能(AGI)であり、これは計画、優先順位付け、戦略に影響を与えます。技術から始まり、ユーザーの問題を解決する従来の製品開発とは異なり、研究と製品は互いに影響を与え合っています。

彼らは、対話インターフェースの開発における研究と製品の協力についての具体例を共有しました。対話インターフェースは、人々が言語モデルと対話する主要な方法になるという研究チームの賭けでした。ChatGPTでは、モデルをマルチターンの対話に直接トレーニングし、これが大きな進歩となりました。対話は状態を保持し、過去のターンを覚えているため、自然なやり取りが可能です。

ジョアンは、製品の観点からモデルの振る舞いを設計する重要性について語りました。ユーザーが何を期待しているかは主観的であり、デフォルトの振る舞いをどう定義するかは大きな課題です。モデルがユーザーのニーズに合わせて応答を適応させることが重要であり、将来のモデルはよりパーソナライズされることが期待されています。

最後に、彼らは将来のモデルがどのように進化するかについての見通しを共有しました。モデルはよりパーソナライズされ、マルチモーダルになり、テキスト、音声、画像などの異なるモーダルを超えて人々のニーズに応えるようになると予想されています。また、モデルがより賢く、より困難なタスクをこなせるようになることも期待されています。

彼らは、OpenAIでの研究と製品開発の協力についての裏側を共有することで、聴衆に感謝を表しました。AI企業が増えるにつれて、このような関係がより一般的になると考えています。

[PR] 要約作成には以下の記事を参考にしました

  • いい記事でした😇(手前味噌)
  • というのはさておきgpt-4-1106-previewに切り替えると普通の長さのYoutube動画ならmap_reduceとか使う必要ないですねもう。便利な世の中になったなぁ。

https://zenn.dev/ml_bear/books/d1f060a3f166a5/viewer/bf244f

Discussion