💬

ChatGPT-4oについての所感

2024/05/15に公開

今更ではありますが、自分用のメモを公開します。

リンク集

https://openai.com/index/hello-gpt-4o/

https://www.youtube.com/@OpenAI/videos

技術的に進化した点

「文字起こし→GPTが処理→音声」の3段階ではなく、同一のNNで処理するモデルを作った
- GPT-4o以前は、**Voice Modeを使用してChatGPTと会話することができましたが、その遅延時間は平均でGPT-3.5が2.8秒、GPT-4が5.4秒でした。このVoice Modeは、音声をテキストに変換するシンプルなモデル、テキストを入力してテキストを出力するGPT-3.5またはGPT-4、そしてそのテキストを音声に変換するシンプルなモデルという3つの異なるモデルのパイプラインで構成されています。このプロセスでは、主要な知能の源であるGPT-4が多くの情報を失ってしまいます。トーンや複数の話者、背景音を直接観察することはできず、笑い声や歌、感情を表現することもできません。
GPT-4oでは、テキスト、ビジョン、音声を横断する新しいモデルをエンドツーエンドでトレーニングしました。つまり、すべての入力と出力が同じニューラルネットワークによって処理されます。**

https://openai.com/index/hello-gpt-4o/

既存の能力が進化した点

応答速度が人間並の速さになった
- GPT-4o（「o」は「omni」を意味します）は、より自然な人間とコンピューターの相互作用に向けた一歩です。テキスト、音声、画像のいずれかまたは組み合わせを入力として受け付け、それに対してテキスト、音声、画像のいずれかまたは組み合わせで出力を生成できます。**音声入力には232ミリ秒から320ミリ秒程度で応答でき、これは会話における人間の応答時間に近いものです。**GPT-4 Turboの英語とコードにおけるパフォーマンスと同等であり、非英語のテキストに関しても大幅な改善が見られます。また、速度が向上し、APIのコストが50％削減されています。特に、視覚と音声の理解において既存のモデルよりも優れています。
API料金がGPT4の半額
性能が自社、他社の既存モデルたちに比べて高い
- 私が使ってみた体感やX上での報告によると、小説作成能力はClaude、コーディング能力はgpt４-turboの方が高いように思う。
  https://note.com/stelsray/n/n747cf2e640cf?sub_rt=share_pb

デモ動画・事例報告の中でわかった点

感情を持ってやり取りできる
- この動画では「君のことを紹介するんだ！」と言った時にAIが照れながら笑っている。
  - https://www.youtube.com/watch?v=vgYi3Wr7v_g
- 動画や音声から感情推定ができる
- ジョークを笑うタイミングとして認識している
  - 「猫の山は、、、ミャウンテン」「ハハハっっ」
  - https://www.youtube.com/watch?v=dVwjogPWVws
動画を入力にして状況を説明させる
- 目が見えない男性にAIが周りの環境を説明している。
- Vision　Proに搭載されれば、街中で装着しながら歩いている人が普通になる未来もありそう。
- https://www.youtube.com/watch?v=KwNUJ69RbwY
数学の教師ができる
- タブレットで画面録画をしながら三角関数について教えている
  - いきなり答えを教えるのではなく、少しずつ段階を踏んで教えていっている
- 東大数学の問題が解ける、という報告があるので、声無しでも画面の問題を解くことは可能。
- https://www.youtube.com/watch?v=_nSmkyDNulk
オンラインミーティングで話者ごとに話した内容を理解して要約できる
- おそらく音声だけで聞き分けているが、もしかすると画面録画も入力しているかも？
  - 他の動画では、動画での動きと話者の声を一致させて理解しているようだ。
- https://www.youtube.com/watch?v=kkIAeMqASaY
喋り方の速度を指定できる
- 早くしゃべって、ゆっくりしゃべって、と言った指定ができる
- https://www.youtube.com/watch?v=G8sm27sGUu4
人間はAIを遮って話すことができる
- 被せて喋った時に、どこまで喋ってどこから遮られたか、を検知しているのかは気になる。
デスクトップアプリで、画面自体を入力にできる
- プログラミングのデモでは、コードをコピペしなくても読める、実行結果のグラフを読んで回答できる。
- https://www.youtube.com/watch?v=mzdvw_euKlk
リアルタイムで通訳ができる
- イタリア語と英語でそれぞれ話すと自動で言語を検知して逆の言語にした
- https://www.notion.so/GPT-4o-ae28c97b9c73421ea9ba6c884da805e0
雑な画像での指示からHTML作成
- 文字での指示も認識している。

日本語のOCR
- 手書きの文字でもできる
- レシートの写真から正確に文字を認識している

補足

↓今バズっているが、これは半分間違い
テキストのやり取りの部分だけ4oだが、エンドツーエンドで音声が入力されているわけではない。動画・音声機能はまだ未公開で近日公開予定。

リンク集

技術的に進化した点

既存の能力が進化した点

デモ動画・事例報告の中でわかった点

補足

Discussion