😇

OpenAI、次世代AIモデル「GPT-4o」を発表

2024/05/14に公開

日本時間2024年5月14日未明、OpenAIは新たなフラッグシップモデル「GPT-4o」を発表しました。このモデルは、音声、視覚、テキストのリアルタイム処理を可能とし、従来のAIモデルを大きく上回る性能を誇ります。OpenAIのCTOであるミラ・ムクティ氏は、「GPT-4oは、人間とマシンのインタラクションの未来を大きく変える一歩です。このモデルにより、コラボレーションがはるかに自然で簡単になります」と述べました。

「GPT-4o」の主な特徴を以下にまとめました。

他のモデルを凌駕する性能

GPT-4oは、OpenAIの以前のモデルであるGPT-4 Turboや、ライバル会社のClaude 3 Opusなどの大規模言語モデルと比較して、頭ひとつ抜けた性能向上を実現しました。サム・アルトマンCEOは、今年4月に "Chatbot Arena" でgpt2というコードネームでテストされていたチャットボットがGPT-4oであったことを認めました。


Chatbot Arenaでの評価値(値が大きいほど賢いモデル)

https://x.com/sama/status/1790066003113607626

音声・画像・テキストの統合処理

GPT-4oの特筆すべき特徴は、音声認識、知性、テキスト読み上げが一体化されている点です。これにより、レイテンシーが大幅に改善され、会話の割り込みや背景ノイズ、複数の声、声のトーンなど、複雑な対話の要素を理解できるようになりました。ただし、動画認識や音声認識の機能は段階的に提供される予定で、当面はテキストと画像認識を中心とした限定的なサービス提供になるとのことです。

発表会では、OpenAIのミラ・ムクティCTOがイタリア語で話した内容をGPT-4oがリアルタイムで英語に翻訳するデモや、紙に手書きで書いた数式をGPT-4oに読み取らせ、解法のヒントを自然な対話形式で提供するデモが行われました。これらのデモは、GPT-4oの高度な言語理解と問題解決能力を印象付けるものでした。

翻訳デモ: https://youtube.com/live/DQacCB9tDaw?si=j5cj8uFB30X_fVcw&t=4851
数式デモ: https://youtube.com/live/DQacCB9tDaw?si=rf7hqmqKh-ZsONHl&t=4389

GPT-4oのマルチモーダル性能については、OpenAIのリリース記事で他社モデルとの詳細な比較グラフが数多く掲載されています。より深く知りたい方はぜひこちらの記事をチェックしてみてください。

GPT-4o発表記事 | OpenAI


画像認識タスクのベンチマーク


音声認識性能ベンチマーク (専用モデルであるWhisperに圧勝している…)

無料ユーザーへの提供開始と開発者向けAPIの強化

現在まで、GPT-4系列は有料課金ユーザーのみに提供されていましたが、GPT-4oは大幅な効率化により、無料ユーザーにも機能が提供されることになりました。有料ユーザーには、無料ユーザーの5倍の使用制限が設定されます。

開発者向けのAPIでは、GPT-4oがGPT-4 Turboと比べて2倍速く、50%安価になり、Rate limitが5倍に引き上げられました。その結果、GPT-4oのAPI価格はClaude 3 Opusの1/3以下、Gemini 1.5 Proと比べても30%引き程度となりました。その高い性能を考えると、破格とも言える強気の価格設定に感じました。

モデル Input Output
GPT-4o $5 $15
Claude 3 Opus $15 $75
Gemini 1.5 Pro $7 $21

(費用は100万トークンあたり / Gemini は Preview 参考価格)

20言語でのトークン効率改善・高速化

GPT-4oでは日本語や中国語を含む20言語でトークナイザーが改善され、トークン使用量が30%程度削減されました。タミル語やヒンディー語などでは、トークン使用量が3分の1程度にまで減少しています。

APIの使用料金が半額になったことも合わせると、日本語の場合は概算で今までの35%程度の費用に抑えられると予想されます。(API使用料金50% x トークン使用量70% = 35%)


日本語のトークン使用量は30%程度削減


影響の大きな言語だと1/3以上削減される例も

また、トークン効率化の影響か、日本語の出力速度が圧倒的に速くなったとの報告が多数寄せられています。日本人ユーザーにとって非常に嬉しい改善点と言えるでしょう。

https://x.com/ImAI_Eruel/status/1790076849118216362

まとめ

GPT-4oは、OpenAIの大規模言語モデルの順当な進化と言えるでしょう。開発者の音声指示に従ってスムーズな動作を行ったライブデモは、大規模言語モデルと自然な会話を行える日が近いことを予感させる内容でした。一方で、動画・音声機能の一般公開はまだ先になりそうで、少し残念な点もあります。

日本語のトークン使用量が減り、速度も上がったことは非常に喜ばしい改善点です。ただし、筆者としてはまだClaude3 Opusの日本語の方がこなれている印象があります。今後のさらなる改善に期待したいところです。

参考資料

Discussion