OpenAI社の新しいGPT-4o モデルについて
キーポイントはマルチモーダル(Omni-Modal)で特に音声認識+画像認識が劇的に強化された事と、デスクトップバージョンがリリースされた事
OpenAIのSpring Updateにおける Mira Murati (CTO)
今朝(5/13)の大きな発表で、OpenAIは、テキスト、音声、ビデオを扱う能力を持つ新バージョンのChatGPTシステム、GPT-4oのリリースを発表しました。「o」は「omni」を意味し、GPT-4oは今後数週間で会社の開発者向けおよび消費者向け製品に「反復的に」展開される予定です。
OpenAIによると、GPT-4oは約50の言語でのパフォーマンスが向上し、さらに多言語対応になっています。また、OpenAIのAPIでは、GPT-4oはGPT-4 Turboの2倍の速さで、半分の価格で、そしてより高いレート制限を持っていると会社は述べています。
GPT-4oは、今日からChatGPTの無料枠で利用可能であり、OpenAIのプレミアムChatGPT PlusとTeamプランの加入者には、「5倍高い」メッセージ制限で提供されます。
現在、全ての顧客に対してGPT-4o APIの一部として音声は提供されていません。OpenAIは、誤用のリスクを引き合いに出し、GPT-4oの新たな音声機能のサポートを「信頼できるパートナーの小グループ」に対して初めて提供する予定であると述べています。
関連ニュースとして、OpenAIはウェブ上で新しく「より会話的」なホーム画面とメッセージレイアウトを備えたChatGPT UIをリリースし、キーボードショートカットを介して質問をしたり、スクリーンショットを取って議論したりするためのmacOS向けのChatGPTデスクトップバージョンを発表しました。ChatGPT Plusのユーザーは、今日からアプリにアクセスできるようになり、Windows版は今年後半にリリースされる予定です。
OpenAIエグゼクティブからのコメント
OpenAI CEOのSam Altman:
今日の発表から強調したい2つの点があります。
まず、私たちのミッションの重要な部分は、非常に有能なAIツールを無料で(または素晴らしい価格で)人々の手に渡すことです。私たちはChatGPTで世界最高のモデルを無料で、広告など一切なしで利用可能にしたことを非常に誇りに思っています。
OpenAIを始めた当初の考えは、私たちがAIを作り、それを使って世界中にさまざまな利益をもたらすというものでした。しかし、今見えてくるのは、私たちがAIを作り、それを他の人々が使って私たち全員が利益を得る素晴らしいものを作るということです。
私たちはビジネスであり、課金するためのたくさんのものを見つけ出し、それが(願わくば)何十億人もの人々に無料で優れたAIサービスを提供するのに役立つでしょう。
次に、新しい音声(およびビデオ)モードは、私が今まで使った中で最高のコンピューターインターフェースです。映画の中のAIのような感覚で、まだそれが本当だということが少し驚きです。人間レベルの応答時間と表現力を得ることが大きな変化となりました。
元のChatGPTは、言語インターフェースで可能なことの一端を示していました。この新しいものは、肌感覚で違います。それは速く、賢く、楽しく、自然で、そして役立ちます。
コンピュータと話すことが私にとって本当に自然に感じたことはありませんでした。今はそうです。私たちが(オプションで)個人化、あなたの情報へのアクセス、あなたの代わりに行動を起こす能力などを追加するにつれて、私たちはコンピュータを使って今まで以上に多くのことを行うことができる興奮する未来を本当に見ることができます。
最後に、この実現に向けて非常に多くの労力を注いだチームに巨大な感謝を!
OpenAI CTOのMira Murati
GPT-4レベルの知能だけでなく、複数のモーダリティとメディアにおいてGPT-4の能力を改善します。 GPT-4oは音声、テキスト、視覚を超えて理由を立て、これは非常に重要です。なぜなら、私たちは自分自身と機械との間の未来の相互作用を見ているからです。
GPT-4oのマルチモーダル機能
OpenAIの前のトップモデルであるGPT-4 Turboは、画像とテキストの両方で訓練されました。画像とテキストを見て、画像からテキストを引き出したり、画像の内容を説明したりするような仕事を行うことができました。しかし、GPT-4oはこの組み合わせに音声を追加します。
GPT-4oはOpenAIのAI駆動型チャットボット、ChatGPTでの体験を大幅に改善します。このプラットフォームは、長い間、テキスト・トゥ・スピーチモデルを使用してチャットボットの応答を書き起こす音声モードを提供してきましたが、GPT-4oはこれを超充電し、ユーザーがChatGPTとよりアシスタントのように対話できるようにします。
たとえば、ユーザーはGPT-4o搭載のChatGPTに質問をし、ChatGPTが答えを出す中で中断することができます。このモデルは、「リアルタイム」の反応性を提供し、OpenAIは言います、ユーザーの声のニュアンスをさえつかむことができ、応答として「さまざまな感情的なスタイル」(歌を含む)の声を生成することができます。
GPT-4oの視覚機能。
デモンストレーターは数学の問題を書き留め、それを解く方法についてのガイダンスを求めます。
https://youtu.be/DQacCB9tDaw?t=884
このデモでは、コーディングタスクでChatGPTのデスクトップアプリが使われています。ChatGPTにはエディターのスクリーンショットが提供され、そのコードが何をするのかを分析し説明するように求められます。
https://youtu.be/DQacCB9tDaw?t=1103
OpenAIの新モデル - GPT-4o
GPT-4oの古いモデルは3つの異なるモデルの組み合わせでした。
- まず、トランスクリプションモデルがあなたの声をテキストに変換します。
- このテキストは、GPT-4をサポートする同じシステムであるインテリジェンスモデルによって処理されます。
- インテリジェンスモデルがテキストを生成し、そのテキストはChatGPTによってコンピュータ化された声に戻されます。これにより、システムは一部の制限を伴いながらも会話能力を持つことができます。
このシステムとのコミュニケーションは、異なるモデル間でコンテンツを転送する必要があるため、遅くて不便なことがあります。私のテストでは、システムに話しかけてから応答を受け取るまでに3から5秒の遅延があることに気付きました。
GPT-4oは、音声認識、音声生成、インテリジェンスを一つのシステムに統合します。
これは、会話を作り出すために3つの異なるモデルを使用していた古いシステムがなくなったことを意味します。今では、新しいバージョンのChatGPTは音声を聞き、それを即座に処理し、現実的な音声で応答することができます。
あなたはChatGPTとより自然に話すことができます。あなたの質問を入力する必要はなく、友達に話すようにアプリに話しかけるだけでよいのです。
ライブデモでは、OpenAIのエンジニアが、システムがユーザーの声を聞き、ミリ秒単位で賢い返答をすることができることを示しました。
この速度は、新モデルがタスク間を切り替える必要がないため可能です。つまり、一つのステップで音声を聞き、音声で応答することができます。
GPT-4oはまた、感情を理解し、表現することもできます。
会話デモ
デモでは、OpenAIのスタッフメンバーがシステムに呼吸エクササイズの指導を求めました。彼は呼吸が速くなるふりをし、ChatGPTは彼の速い呼吸とパニックに気づき、彼にゆっくりと深呼吸をするように指示しました。
https://youtu.be/DQacCB9tDaw?t=600
感情を込めた寝る前の物語
システムは自己の応答に感情を変えることもできます。別のデモでは、スタッフはGPT-4oに、よりドラマチックな声で寝る前の物語を読むように頼みました。そしてそれは、興奮しすぎた中学生の俳優のように聞こえました!
https://youtu.be/DQacCB9tDaw?t=740
この新システムは、GPT-4の視覚機能と統合されているため、人の顔の感情を理解することもできます。これは、システムをより良い会話相手にする可能性があります。
他の新機能も役立つでしょう。ユーザーはGPT-4oが話している間に割り込むことができます。
デモ中、OpenAIのスタッフメンバーは、モデルが他の何かについて話し始めたとき、友人に質問の答えを求めるようにしばしばモデルを遮りました。
リアルタイム翻訳
観客の質問に基づいて、OpenAIのスタッフメンバーはシステムがイタリア語の話し言葉を聞き取り、それを迅速かつ正確に英語の話し言葉に翻訳する方法を示しました。また、その逆も可能です。
https://youtu.be/DQacCB9tDaw?t=1357
これは、GPT-4oが英語とスペイン語の会話をリアルタイムで翻訳できることを示す別のデモ例です。
市場に対するインパクト
- GPT-4oは今後APIも公開されるので、このAPIをベースにした新規アプリの開発が立ち上がると想定されます。高度な音声認識機能によって、上記のデモにもあった「感情表現」や自動翻訳などを使ったアプリが出てくると思います。また、画像/映像認識と組み合わせるとさらの広範囲のアプリが期待できると感じます。
- すでに音声や画像認識を採用しているアプリケーションは世の中にいっぱいあると思いますが、GPT-4oの持つ機能ははるかに優れているのでそれらを置き換える動きは出てくると思います。監視カメラ等のセキュリティの世界、顧客サービス等のチャットボット、自動運転などの安全性要件が高いアプリ、果ては医療の世界などでもいろいろなアイディアが出てくると考えられます。
Discussion