👓

GPT-4oの特徴

2024/05/16に公開

GPT-4o

GPT-4oはGPT-4およびGPT-4 Turboに続く新しいバージョンで、GPT-4の次の大きなアップデートで,誰もが無料で使用でき、以前よりも速く、運用コストも安いモデルです。直感的に感じられるのは、反応速度が速くなったが創造性や正確性の面でGPT-4と比べてどのような向上があるかは、さらに体感する必要があると思います。

Project Astraとの比較

本日のGoogle I/O開発者会議で、Googleは10数種類の新製品とアップグレードを披露しました。その中には、アップグレードされたGeminiモデルを動力源とするAIアシスタントプロジェクト「Project Astra」と、Soraに対応するビデオ生成モデル「Veo」が含まれています。Project Astraのデモでは、ユーザーが携帯電話とスマートグラスのカメラを介して対話します。Astraは、ユーザーの意図を迅速に理解し、入力データを記録する能力を持っています。例えば、「スマートグラスはどこにある?」とユーザーが問いかけた際、Astraは過去の映像を検索し、ユーザーの意図を理解して迅速に対象物を特定します。

しかし、デモビデオを見る限り、GPT-4oと比較して、Astraの反応速度にはまだ改善の余地があります。また、GPT-4oのような感じ取れないインタラクションは実現しておらず、声のトーンや感情の表現にも不足が見られます。一方、音声アシスタントとグラスの組み合わせは、日常生活のシーンでの応用可能性を示しているでしょう。


カメラを通してほぼリアルタイムでインタラクションができます。

GPT-4oの突破点

発表会で印象に残ったポイントは次の通りです:

  • GPT-4oはネイティブのマルチモーダル大規模モデルで、テキスト、音声、画像、動画をサポートし、推論速度が速いです。
    • GPT-4の音声対話の実現方法(Whisper → LLM → TTS)と比較すると、ネイティブマルチモーダルはGPT-4oの推論速度が速いことを意味します。
  • ChatGPTアカウントを持っている人はGPT-4oを無料で使用できます!(もちろん、有料版と比べて制限があります。)
  • ChatGPTのデスクトップバージョンに期待。実際の作業効率の向上が見込まれています。
    • デモでは、デスクトップ画面をリアルタイムでChatGPTデスクトップアプリに共有し、音声でスムーズに対話できました。
    • GPT-4oの音声生成速度は、人間を上回るほど速かったです。
  • 異なる口調や会話速度、ユーザーの感情認識が〇〇に関するアプリに取って代わる可能性がある:
    • 翻訳ソフト
    • テキストの音声化
    • 感情的なアプリ・バーチャル恋人
    • … など。

ビジネス

リアルタイムの応答と分析、マルチモーダル入出力、およびカスタマイズされた個別対応が必要で、業界の「壁」が低いアプリケーションのシナリオが実現されるでしょう。

  • モデルアーキテクチャ自体と異なるモデルを結合してマルチモーダルを実現するのには本質的な違いがあります。
  • 視覚障害者向けのインタラクション
  • コールセンター
  • AIエージェント
  • 健康モニター

やはり重要なのはドメイン知識とデータかと思っています。

Discussion