📸

Claude 3 Opusの画像認識性能をお試し

2024/03/16に公開

Claude 3 Opus課金への道

最近、周りでClaude 3(特に最上位モデルのopus)の性能が凄いと話題です。

「どうせOpen AIからまた凄いの出るでしょ」

と静観していたのですが、しばらくは出なさそうな雰囲気がするのと、周りのプレッシャー(?)に耐えられなくなり課金してしまいました。AI依存&AI破産まっしぐらですね。

Claude 3 Opusの画像認識を試してみた

ファイルアップロードできると聞いていたので、拙作「面倒なことはChatGPTにやらせよう」のタスクを色々やらせてみようかなと思ったのですが、完全な私の勘違い(調査不足)で、アップロードできるのはドキュメントと画像だけでした。他のファイルを読み込ませるには、APIを使って自分でプログラムを組む必要がありそうです。

というわけで、かろうじて試せそうな画像認識を試してみることにしました。画像の題材は、書籍のサポートサイトにある画像を使っています。

Claude 3 opusとChatGPT Plusともにブラウザ版での比較です。
ちなみに、定量的な比較では全然なく、あくまで試してみたというレベルですのでご了承ください。

画像説明

若かりし頃の私が、エクストリームアイロニングをしている画像の説明です。

Claude 3

少年というのは、嬉しいですがアイロンは分かってないですし、読書しているというのもの間違ってますね。

ChatGPT

エクストリームアイロニングを完全に理解していますね

OCR

ホワイトボードの文字の読み取りの比較です。

Claude 3

1箇所数字を間違えていますが、ほぼ正確に読み取っていますね。私の文字が汚いのが原因かもしれません。

ChatGPT

曜日を1箇所間違えていますが、こちらもほぼ正確に読み取っていますね。ChatGPT Plusの場合は、この後エクセルで書き出したりできるのが嬉しいところです。

数え上げ

電子部品の数え上げです。

Claude 3

Raspberry Pi(ラズパイ)は理解していますが、他の部品はあんまり理解していなさそうです。正確な部品数は26個なので、ちょっと少なめですが、数え方にもよるので許容範囲だと思います。

ChatGPT

ラズパイの他、Arduinoも理解しています。部品数は若干多めのカウントですが、こちらも許容範囲だと思います。

まとめ

Claude 3 Opusを試してみました。画像認識に関しては、少量のサンプルで試した限りでは、自分の体感だとChatGPTと大きな差は感じられませんでした。ただ、数が少ないので本格的な比較には、他にも色々試したいところですね。

画像認識以外も試したいですね。まずは公式プロンプトかな。

Claude 3 Opusの性能の高さ(特にコーディング)は、凄い聞くのでさまざまな面倒なことをやらせてみたいですね。APIの方も契約しないと駄目かな…そちらはまたいずれ!

参考リンク

https://zenn.dev/tomioka/articles/26f360ad73edd1

https://zenn.dev/olemi/articles/a8b492712fd9e7

https://zenn.dev/karaage0703/articles/90d4de4596b262

関連記事

https://karaage.hatenadiary.jp/entry/2024/03/18/073000

Discussion