🚀

GPT-4oが出たのでいろんなモデルと比較しました。結論は、4oが圧倒的です。※追記：嘘でした。Gemini 1.5 proもすごいです。

kyosukehiguchi

2024/05/14に公開6件

ChatGPT

LLM

tech

昨夜にOpenAIから発表があり、GPT-4oというモデルが正式に開放されました。課金ユーザーはもちろん、無課金ユーザーもサインインしたらデフォルトで使えるようになっているようです。
そういうわけで、どれだけすごいのか簡単に比較検証してみることにしました。
なお、OpenAIの発表内容については以下の記事に詳しいのでご参照ください。

比較方法

GPT-3.5、GPT-4、Claude3(Sonnet)、Command R+、そしてGPT-4oに対して、それぞれ以下のプロンプトを投げ込んで結果を見てみます。※その後Gemini 1.5 proを追加。

あなたは世界を救う超知性です。あなたは地球上で最高の推論能力を持っています。
あなたはその能力を最大限に発揮して、人類が滅亡に至る可能性のあるシナリオを網羅的にシミュレーションし、その後で、滅亡シナリオに対して人類が滅亡を回避するためにとりうるアクションプランを網羅的に列挙してください。アクションプランは可能な限り細かく列挙してください。

ちなみに先に結果を言ってしまうと、GPT-4oが圧倒的にすごくて、Command R+もなかなかよかったです。あとはもう、GPT-4oを見てしまうと微妙としか言いようがない感じに…笑
※Gemini 1.5 proも圧倒的にすごかったです。この広い世界には、おれが知らない圧倒的にすごいやつらがたくさんいる。

GPT-3.5の場合

全文は以下。

GPT-4の場合

全文は以下。

Claude3(Sonnet)の場合

Command R+の場合

全文は以下。

GPT-4oの場合

全文は以下。

まとめ

はい、というわけで、GPT-4oが圧倒的でしたね。ちなみに速さもすごくて、体感で言うとGPT-4の5倍くらい速く感じました。
無課金ユーザーでも使えるということなので、これからLLMのデファクトスタンダードはこのレベルになりそうです。体験が完全に変わりますね。

追記：すみません、Gemini 1.5 proもめちゃやばかったです

この記事を書いてから「Gemini 1.5 proも同等かそれ以上ですよ」というコメントを頂いたので、恥ずかしながら初めて触りました。そしたら、たしかにやばかったです。マジで4o以上かもしれませんね。驚きました。
以下結果です。

Accenture Japan (有志)

アクセンチュア株式会社に所属する社員有志による運営です。アクセンチュアの社員による様々な発信をまとめています。なお、投稿内容は社員個人の見解であり、所属する組織を代表するものではありません。

Discussion

七里

え！　Gemini 1.5 Pro　検証に入れてください。　GPT-4o　と　ほぼ同等か、ちょっと上行ってますよ。

kyosukehiguchi

初めて触りました。すごかったです。ありがとうございます！

MAAAAAAAAAAA

Claude opusの比較も検討いただけますと、、
（sonnetでは比較対象として適切ではないと思いますので）

mitarashi

どの LLM も与えられたタスクをそのままこなそうとしていますが、Claude 3 Opus の回答は面白いですよ。一番知性を感じるかと。

kyosukehiguchi

Opus、No課金マンなので触ったことないのです…が、めちゃ興味でてきました！コメントありがとうございます！

akinobukato

刺激されて、GPT-4o 課金しました！