😎

GPT-4oによる画像解析

2024/05/24に公開

はじめに

  • Azure OpenAI ServiceにGPT-4oが追加されましたので、その機能を使って画像処理の精度を試してみます。
  • シンプルにチャットプレイグラウンドで画像をアップロードし、性能を確認します。
  • Azure上での使用方法が不明の方は、Azure上のGPT-4oを使用する方法を参照してください。
  • 背景が青枠の方がInputで背景が白or黒枠の方がOutputです。

動物の数を数える

  • 正確に数えられてます。数が増えると誤差が出るかもしれませんが、この程度の数なら問題ないでしょう。

参考ページ:マザー牧場

蒸気機関の原理


  • 図の文字を引用して動作の原理を解説してくれます。

参考ページ:機械 - wikipedia

縦文字の読み取り


  • 縦書き、漢字の読み取りも可能です。読み取り精度はほぼ正確です。
  • 従来のモデルに比べて、日本語の読み取りと知識が向上しているようです。

参考ページ:雨ニモマケズ - wikipedia

バーコードの読み取り

  • 標準的なバーコードは読み取れるようです。
  • QRコードとかは難しそうでした。

設計図の読み取り


  • 設計図の読み取りも可能です。文字の読み取りもある程度正確です。

参考ページ:Document Intelligence Studio

3D構造の読み取り




  • 3D構造の読み取りも可能です。構造の説明もしてくれます。
  • 何回かやると違う物質と認識してしまうこともありました。
  • RAGのシステムと組み合わせると、より正確な解説ができるかもしれません。

参考ページ:カフェイン - wikipedia

半導体電子回路図の読み取り


  • 電子回路図の読み取りも可能です。記号の説明もしてくれます。
  • また動作の流れも説明してくれます。

参考ページ:電気回路図の知識と読み方

画像のキャプション作成


  • JSONのみで出力してくれます。
  • 画像のキャプション作成も可能です。ナンバープレートも認識してくれています。
  • 出力内容を検索できるようにすれば、キャプションを用いた高度な画像検索ができるかもしれません。

Azure アーキテクチャの読み取り



参考ページ:Azure Synapse を使用した分析のエンド ツー エンド

まとめ

  • 画像解説の精度は高いです。特に文字の読み取りは従来のモデルよりも向上しているようです。
  • 設計図や回路図の読み取りにはプロンプトの工夫が必要そうです。

他にも面白い内容があれば、随時更新していきます。

Discussion