Claude 3 Opusの画像認識性能をお試し
Claude 3 Opus課金への道
最近、周りでClaude 3(特に最上位モデルのopus)の性能が凄いと話題です。
「どうせOpen AIからまた凄いの出るでしょ」
と静観していたのですが、しばらくは出なさそうな雰囲気がするのと、周りのプレッシャー(?)に耐えられなくなり課金してしまいました。AI依存&AI破産まっしぐらですね。
Claude 3 Opusの画像認識を試してみた
ファイルアップロードできると聞いていたので、拙作「面倒なことはChatGPTにやらせよう」のタスクを色々やらせてみようかなと思ったのですが、完全な私の勘違い(調査不足)で、アップロードできるのはドキュメントと画像だけでした。他のファイルを読み込ませるには、APIを使って自分でプログラムを組む必要がありそうです。
というわけで、かろうじて試せそうな画像認識を試してみることにしました。画像の題材は、書籍のサポートサイトにある画像を使っています。
Claude 3 opusとChatGPT Plusともにブラウザ版での比較です。
ちなみに、定量的な比較では全然なく、あくまで試してみたというレベルですのでご了承ください。
画像説明
若かりし頃の私が、エクストリームアイロニングをしている画像の説明です。
Claude 3
少年というのは、嬉しいですがアイロンは分かってないですし、読書しているというのもの間違ってますね。
ChatGPT
エクストリームアイロニングを完全に理解していますね
OCR
ホワイトボードの文字の読み取りの比較です。
Claude 3
1箇所数字を間違えていますが、ほぼ正確に読み取っていますね。私の文字が汚いのが原因かもしれません。
ChatGPT
曜日を1箇所間違えていますが、こちらもほぼ正確に読み取っていますね。ChatGPT Plusの場合は、この後エクセルで書き出したりできるのが嬉しいところです。
数え上げ
電子部品の数え上げです。
Claude 3
Raspberry Pi(ラズパイ)は理解していますが、他の部品はあんまり理解していなさそうです。正確な部品数は26個なので、ちょっと少なめですが、数え方にもよるので許容範囲だと思います。
ChatGPT
ラズパイの他、Arduinoも理解しています。部品数は若干多めのカウントですが、こちらも許容範囲だと思います。
まとめ
Claude 3 Opusを試してみました。画像認識に関しては、少量のサンプルで試した限りでは、自分の体感だとChatGPTと大きな差は感じられませんでした。ただ、数が少ないので本格的な比較には、他にも色々試したいところですね。
画像認識以外も試したいですね。まずは公式プロンプトかな。
Claude 3 Opusの性能の高さ(特にコーディング)は、凄い聞くのでさまざまな面倒なことをやらせてみたいですね。APIの方も契約しないと駄目かな…そちらはまたいずれ!
参考リンク
関連記事
Discussion