👓

GPT-4oの特徴

2024/05/16に公開

GPT-4

LLM

tech

GPT-4o

GPT-4oはGPT-4およびGPT-4 Turboに続く新しいバージョンで、GPT-4の次の大きなアップデートで，誰もが無料で使用でき、以前よりも速く、運用コストも安いモデルです。直感的に感じられるのは、反応速度が速くなったが創造性や正確性の面でGPT-4と比べてどのような向上があるかは、さらに体感する必要があると思います。

Project Astraとの比較

本日のGoogle I/O開発者会議で、Googleは10数種類の新製品とアップグレードを披露しました。その中には、アップグレードされたGeminiモデルを動力源とするAIアシスタントプロジェクト「Project Astra」と、Soraに対応するビデオ生成モデル「Veo」が含まれています。Project Astraのデモでは、ユーザーが携帯電話とスマートグラスのカメラを介して対話します。Astraは、ユーザーの意図を迅速に理解し、入力データを記録する能力を持っています。例えば、「スマートグラスはどこにある？」とユーザーが問いかけた際、Astraは過去の映像を検索し、ユーザーの意図を理解して迅速に対象物を特定します。

しかし、デモビデオを見る限り、GPT-4oと比較して、Astraの反応速度にはまだ改善の余地があります。また、GPT-4oのような感じ取れないインタラクションは実現しておらず、声のトーンや感情の表現にも不足が見られます。一方、音声アシスタントとグラスの組み合わせは、日常生活のシーンでの応用可能性を示しているでしょう。

カメラを通してほぼリアルタイムでインタラクションができます。

GPT-4oの突破点

発表会で印象に残ったポイントは次の通りです：

GPT-4oはネイティブのマルチモーダル大規模モデルで、テキスト、音声、画像、動画をサポートし、推論速度が速いです。
- GPT-4の音声対話の実現方法（Whisper → LLM → TTS）と比較すると、ネイティブマルチモーダルはGPT-4oの推論速度が速いことを意味します。
ChatGPTアカウントを持っている人はGPT-4oを無料で使用できます！（もちろん、有料版と比べて制限があります。）
ChatGPTのデスクトップバージョンに期待。実際の作業効率の向上が見込まれています。
- デモでは、デスクトップ画面をリアルタイムでChatGPTデスクトップアプリに共有し、音声でスムーズに対話できました。
- GPT-4oの音声生成速度は、人間を上回るほど速かったです。
異なる口調や会話速度、ユーザーの感情認識が〇〇に関するアプリに取って代わる可能性がある：
- 翻訳ソフト
- テキストの音声化
- 感情的なアプリ・バーチャル恋人
- … など。

ビジネス

リアルタイムの応答と分析、マルチモーダル入出力、およびカスタマイズされた個別対応が必要で、業界の「壁」が低いアプリケーションのシナリオが実現されるでしょう。

モデルアーキテクチャ自体と異なるモデルを結合してマルチモーダルを実現するのには本質的な違いがあります。
視覚障害者向けのインタラクション
コールセンター
AIエージェント
健康モニター

やはり重要なのはドメイン知識とデータかと思っています。

Discussion

ログインするとコメントできます