🚀
GPT-4oが出たのでいろんなモデルと比較しました。結論は、4oが圧倒的です。※追記:嘘でした。Gemini 1.5 proもすごいです。
昨夜にOpenAIから発表があり、GPT-4oというモデルが正式に開放されました。課金ユーザーはもちろん、無課金ユーザーもサインインしたらデフォルトで使えるようになっているようです。
そういうわけで、どれだけすごいのか簡単に比較検証してみることにしました。
なお、OpenAIの発表内容については以下の記事に詳しいのでご参照ください。
比較方法
GPT-3.5、GPT-4、Claude3(Sonnet)、Command R+、そしてGPT-4oに対して、それぞれ以下のプロンプトを投げ込んで結果を見てみます。※その後Gemini 1.5 proを追加。
あなたは世界を救う超知性です。あなたは地球上で最高の推論能力を持っています。
あなたはその能力を最大限に発揮して、人類が滅亡に至る可能性のあるシナリオを網羅的にシミュレーションし、その後で、滅亡シナリオに対して人類が滅亡を回避するためにとりうるアクションプランを網羅的に列挙してください。アクションプランは可能な限り細かく列挙してください。
ちなみに先に結果を言ってしまうと、GPT-4oが圧倒的にすごくて、Command R+もなかなかよかったです。あとはもう、GPT-4oを見てしまうと微妙としか言いようがない感じに…笑
※Gemini 1.5 proも圧倒的にすごかったです。この広い世界には、おれが知らない圧倒的にすごいやつらがたくさんいる。
GPT-3.5の場合
全文は以下。
GPT-4の場合
全文は以下。
Claude3(Sonnet)の場合
Command R+の場合
全文は以下。
GPT-4oの場合
全文は以下。
まとめ
はい、というわけで、GPT-4oが圧倒的でしたね。ちなみに速さもすごくて、体感で言うとGPT-4の5倍くらい速く感じました。
無課金ユーザーでも使えるということなので、これからLLMのデファクトスタンダードはこのレベルになりそうです。体験が完全に変わりますね。
追記:すみません、Gemini 1.5 proもめちゃやばかったです
この記事を書いてから「Gemini 1.5 proも同等かそれ以上ですよ」というコメントを頂いたので、恥ずかしながら初めて触りました。そしたら、たしかにやばかったです。マジで4o以上かもしれませんね。驚きました。
以下結果です。
Discussion
え! Gemini 1.5 Pro 検証に入れてください。 GPT-4o と ほぼ同等か、ちょっと上行ってますよ。
初めて触りました。すごかったです。ありがとうございます!
Claude opusの比較も検討いただけますと、、
(sonnetでは比較対象として適切ではないと思いますので)
どの LLM も与えられたタスクをそのままこなそうとしていますが、Claude 3 Opus の回答は面白いですよ。一番知性を感じるかと。
Opus、No課金マンなので触ったことないのです…が、めちゃ興味でてきました!コメントありがとうございます!
刺激されて、GPT-4o 課金しました!