😎
GPT-4oによる画像解析
はじめに
- Azure OpenAI ServiceにGPT-4oが追加されましたので、その機能を使って画像処理の精度を試してみます。
- シンプルにチャットプレイグラウンドで画像をアップロードし、性能を確認します。
- Azure上での使用方法が不明の方は、Azure上のGPT-4oを使用する方法を参照してください。
- 背景が青枠の方がInputで背景が白or黒枠の方がOutputです。
動物の数を数える
- 正確に数えられてます。数が増えると誤差が出るかもしれませんが、この程度の数なら問題ないでしょう。
参考ページ:マザー牧場
蒸気機関の原理
- 図の文字を引用して動作の原理を解説してくれます。
参考ページ:機械 - wikipedia
縦文字の読み取り
- 縦書き、漢字の読み取りも可能です。読み取り精度はほぼ正確です。
- 従来のモデルに比べて、日本語の読み取りと知識が向上しているようです。
参考ページ:雨ニモマケズ - wikipedia
バーコードの読み取り
- 標準的なバーコードは読み取れるようです。
- QRコードとかは難しそうでした。
設計図の読み取り
- 設計図の読み取りも可能です。文字の読み取りもある程度正確です。
参考ページ:Document Intelligence Studio
3D構造の読み取り
- 3D構造の読み取りも可能です。構造の説明もしてくれます。
- 何回かやると違う物質と認識してしまうこともありました。
- RAGのシステムと組み合わせると、より正確な解説ができるかもしれません。
参考ページ:カフェイン - wikipedia
半導体電子回路図の読み取り
- 電子回路図の読み取りも可能です。記号の説明もしてくれます。
- また動作の流れも説明してくれます。
参考ページ:電気回路図の知識と読み方
画像のキャプション作成
- JSONのみで出力してくれます。
- 画像のキャプション作成も可能です。ナンバープレートも認識してくれています。
- 出力内容を検索できるようにすれば、キャプションを用いた高度な画像検索ができるかもしれません。
Azure アーキテクチャの読み取り
参考ページ:Azure Synapse を使用した分析のエンド ツー エンド
まとめ
- 画像解説の精度は高いです。特に文字の読み取りは従来のモデルよりも向上しているようです。
- 設計図や回路図の読み取りにはプロンプトの工夫が必要そうです。
他にも面白い内容があれば、随時更新していきます。
Discussion