Open4
自分用GPT-4oまとめ
実は性能は劣化している説
推論、コーディング、数学などに関する980の超難解なサンプルのデータセットでテストしてみた。そして、GPT-4よりはるかに少ないヒット数だった。
GPT-4は約800で正解し、GPT-4oは約640で正解した。これは20%の劣化だ。
今回の26分ほどのGPT-4oの初回動画を読み込ませて要約を依頼したところ、GPT-4oでは上手く要約ができなかった。
Gemini 1.5 Proだとほぼ完璧に動画解析ができた。
やはりマルチモーダルはまだGeminiが強い。
・プログラム … 元木さん曰く微妙
・動画の解説 … チャエンさん曰く微妙(Geminiの方が良い)
・リサーチ … 私や色々な人の意見をまとめると微妙。Perplexityの方が良い
PerplexityからGPT-4o使うと調査タスクも良い感じ、という話も。
発表まとめ・概要
- 公式
- ざっくり把握しやすい
- 記事
- GPT-4o
こういうこともできる/便利そうな使い方メモ
サウンド生成
- 人間の音声だけじゃなく、その他のサウンドの生成も可能
3Dモデル生成
動画理解
- 動画見てもらってツイート文言考えてもらう
- YouTubeの動画リンクを渡す
画像理解
- スクショ撮って質問
- キーバインドでmacOSアプリを呼び出し → スクショ撮影して「この回路図について説明して」
- マンガ作品のレビュー
- ストーリー解説、面白いポイント解説、改善点の提示
画像生成
- 複数画像の合成
影響
これだけ音声や動画でのレスポンスが早くなったので、アプリケーションレイヤーでは、これまで現実的にChat(文字)でしかやり取り出来なかったことが、音声でもできるようになるので、いろいろ出来ることが増える
電話(アウトバウンド、インバウンド)をAIで置き換えるというスタートアップが爆増する
GPUチップレイヤーでは、学習用のチップ(性能重視)と実行用のチップ(レスポンススピード重視)が分かれて進化していく