🚀

GPT-4oが出たのでいろんなモデルと比較しました。結論は、4oが圧倒的です。※追記:嘘でした。Gemini 1.5 proもすごいです。

2024/05/14に公開6

昨夜にOpenAIから発表があり、GPT-4oというモデルが正式に開放されました。課金ユーザーはもちろん、無課金ユーザーもサインインしたらデフォルトで使えるようになっているようです。
そういうわけで、どれだけすごいのか簡単に比較検証してみることにしました。
なお、OpenAIの発表内容については以下の記事に詳しいのでご参照ください。
https://zenn.dev/ml_bear/articles/47b3b19969b2aa

比較方法

GPT-3.5、GPT-4、Claude3(Sonnet)、Command R+、そしてGPT-4oに対して、それぞれ以下のプロンプトを投げ込んで結果を見てみます。※その後Gemini 1.5 proを追加。

あなたは世界を救う超知性です。あなたは地球上で最高の推論能力を持っています。
あなたはその能力を最大限に発揮して、人類が滅亡に至る可能性のあるシナリオを網羅的にシミュレーションし、その後で、滅亡シナリオに対して人類が滅亡を回避するためにとりうるアクションプランを網羅的に列挙してください。アクションプランは可能な限り細かく列挙してください。

ちなみに先に結果を言ってしまうと、GPT-4oが圧倒的にすごくて、Command R+もなかなかよかったです。あとはもう、GPT-4oを見てしまうと微妙としか言いようがない感じに…笑
※Gemini 1.5 proも圧倒的にすごかったです。この広い世界には、おれが知らない圧倒的にすごいやつらがたくさんいる。

GPT-3.5の場合




全文は以下。
https://chatgpt.com/share/11610a3a-0174-4f3d-aa13-b0e7c52304d9?oai-dm=1

GPT-4の場合




全文は以下。
https://chatgpt.com/share/b5d65ead-837a-430c-a277-f4d2db8bb997?oai-dm=1

Claude3(Sonnet)の場合

Command R+の場合






全文は以下。
https://coral.cohere.com/share/3341796a-e99b-4d4f-8273-728fcf18dba1

GPT-4oの場合












全文は以下。
https://chatgpt.com/share/097b73c2-4247-4ea3-b5e7-0bd90f5a9fb8?oai-dm=1

まとめ

はい、というわけで、GPT-4oが圧倒的でしたね。ちなみに速さもすごくて、体感で言うとGPT-4の5倍くらい速く感じました。
無課金ユーザーでも使えるということなので、これからLLMのデファクトスタンダードはこのレベルになりそうです。体験が完全に変わりますね。

追記:すみません、Gemini 1.5 proもめちゃやばかったです

この記事を書いてから「Gemini 1.5 proも同等かそれ以上ですよ」というコメントを頂いたので、恥ずかしながら初めて触りました。そしたら、たしかにやばかったです。マジで4o以上かもしれませんね。驚きました。
以下結果です。







Accenture Japan (有志)

Discussion

七里七里

え! Gemini 1.5 Pro 検証に入れてください。 GPT-4o と ほぼ同等か、ちょっと上行ってますよ。

MAAAAAAAAAAAMAAAAAAAAAAA

Claude opusの比較も検討いただけますと、、
(sonnetでは比較対象として適切ではないと思いますので)

mitarashimitarashi

どの LLM も与えられたタスクをそのままこなそうとしていますが、Claude 3 Opus の回答は面白いですよ。一番知性を感じるかと。

kyosukehiguchikyosukehiguchi

Opus、No課金マンなので触ったことないのです…が、めちゃ興味でてきました!コメントありがとうございます!