💬

ChatGPT-4oについての所感

2024/05/15に公開

今更ではありますが、自分用のメモを公開します。

リンク集

https://openai.com/index/hello-gpt-4o/

https://www.youtube.com/@OpenAI/videos

https://www.itmedia.co.jp/aiplus/articles/2405/14/news081.html

https://pc.watch.impress.co.jp/docs/news/1591159.html

技術的に進化した点

  • 「文字起こし→GPTが処理→音声」の3段階ではなく、同一のNNで処理するモデルを作った

    • GPT-4o以前は、**Voice Modeを使用してChatGPTと会話することができましたが、その遅延時間は平均でGPT-3.5が2.8秒、GPT-4が5.4秒でした。このVoice Modeは、音声をテキストに変換するシンプルなモデル、テキストを入力してテキストを出力するGPT-3.5またはGPT-4、そしてそのテキストを音声に変換するシンプルなモデルという3つの異なるモデルのパイプラインで構成されています。このプロセスでは、主要な知能の源であるGPT-4が多くの情報を失ってしまいます。トーンや複数の話者、背景音を直接観察することはできず、笑い声や歌、感情を表現することもできません。

    GPT-4oでは、テキスト、ビジョン、音声を横断する新しいモデルをエンドツーエンドでトレーニングしました。つまり、すべての入力と出力が同じニューラルネットワークによって処理されます。**

https://openai.com/index/hello-gpt-4o/

既存の能力が進化した点

  • 応答速度が人間並の速さになった
    • GPT-4o(「o」は「omni」を意味します)は、より自然な人間とコンピューターの相互作用に向けた一歩です。テキスト、音声、画像のいずれかまたは組み合わせを入力として受け付け、それに対してテキスト、音声、画像のいずれかまたは組み合わせで出力を生成できます。**音声入力には232ミリ秒から320ミリ秒程度で応答でき、これは会話における人間の応答時間に近いものです。**GPT-4 Turboの英語とコードにおけるパフォーマンスと同等であり、非英語のテキストに関しても大幅な改善が見られます。また、速度が向上し、APIのコストが50%削減されています。特に、視覚と音声の理解において既存のモデルよりも優れています。
  • API料金がGPT4の半額
  • 性能が自社、他社の既存モデルたちに比べて高い

デモ動画・事例報告の中でわかった点

  • 感情を持ってやり取りできる
  • 動画を入力にして状況を説明させる
    • 目が見えない男性にAIが周りの環境を説明している。
    • Vision Proに搭載されれば、街中で装着しながら歩いている人が普通になる未来もありそう。
    • https://www.youtube.com/watch?v=KwNUJ69RbwY
  • 数学の教師ができる
    • タブレットで画面録画をしながら三角関数について教えている
      • いきなり答えを教えるのではなく、少しずつ段階を踏んで教えていっている
    • 東大数学の問題が解ける、という報告があるので、声無しでも画面の問題を解くことは可能。
    • https://www.youtube.com/watch?v=_nSmkyDNulk
  • オンラインミーティングで話者ごとに話した内容を理解して要約できる
    • おそらく音声だけで聞き分けているが、もしかすると画面録画も入力しているかも?
      • 他の動画では、動画での動きと話者の声を一致させて理解しているようだ。
    • https://www.youtube.com/watch?v=kkIAeMqASaY
  • 喋り方の速度を指定できる
  • 人間はAIを遮って話すことができる
    • 被せて喋った時に、どこまで喋ってどこから遮られたか、を検知しているのかは気になる。
  • デスクトップアプリで、画面自体を入力にできる
  • リアルタイムで通訳ができる
  • 雑な画像での指示からHTML作成
    • 文字での指示も認識している。

https://twitter.com/kmizu/status/1790227959724618123?s=12&t=8Ewc2DpC-wg2qPpVskpUBw

  • 日本語のOCR
    • 手書きの文字でもできる
    • レシートの写真から正確に文字を認識している

https://twitter.com/shuhei_ohno/status/1790160159446352104?s=12&t=8Ewc2DpC-wg2qPpVskpUBw

https://x.com/cometscome_phys/status/1790560383062950171?s=46&t=8Ewc2DpC-wg2qPpVskpUBw

補足

↓今バズっているが、これは半分間違い
テキストのやり取りの部分だけ4oだが、エンドツーエンドで音声が入力されているわけではない。動画・音声機能はまだ未公開で近日公開予定。

https://twitter.com/yuzukihiromi/status/1790096041792122939

https://twitter.com/kyutaro15/status/1790098489940258830?s=12&t=8Ewc2DpC-wg2qPpVskpUBw

Discussion