💨

GPT-4 Turbo with Vision on Azure OpenAI Serviceを読み解く

2023/11/17に公開

はじめに

Microsoft Ignite 2023でGPT-4 Turbo with Vision (プレビュー)の案内がされました。
従来の言語だけで生成AIを使用するのではなく、画像を用いた検索が可能になります。
どういった機能があるのか、他のAzure AI製品と組み合わせてどのようなことができるのか見てみましょう。

※その他OpenAI関連アップデートはこちらからご覧ください。
※引用元
GPT-4 Turbo with Vision on Azure OpenAI Service
ビデオ検索

https://youtu.be/FZhbJZEgKQ4?t=1075

ビデオプロンプト

  • Azure AI Vision Video Retrieval が GPT-4 Turbo with Visionと統合され、開発者はビデオを直接入力として活用できるようになりました。
  • これにより、ビデオをアプリケーションに組み込む過程が簡素化され、ビデオコンテンツの分析と回答生成が容易になります。

画像情報を元に検索の向上

  • GPT-4 Turbo を Vision、Azure AI Search、Azure AI Vision と組み合わせることで、高度に検索することが可能になります。
  • 画像をテキストデータに追加し、ベクトル検索を利用してデータに接続するソリューションを開発し、チャットエクスペリエンスを向上させることができます。Bring Your Data上で実装されます。
    Azure OpenAI Service で独自のデータを使用する

オブジェクトのグラウンディング

  • Azure AI Vision が、GPT-4 Turbo with Vision を活用して、画像内の重要なオブジェクトの輪郭を描くことで、テキスト応答を視覚的に強化します。
  • 画像処理が容易になり複雑なライブラリーを使用せずに、画像・データ分析を行うことができます。
    以下は写真のコーディネイトを再現するのはどのようにすればいいか聞いている様子。コート、ベルト、バック等の情報を枠で囲み返答している様子です。


OCR

  • Azure AI Visionの中でGPT-4 Turbo with Visionを活用することが可能です。複雑なテキストや財務ドキュメントでも精度の高い分析を可能にします。これにより、より幅広い言語での高品質なOCRが実現されます。
  • 以下の画像では、合計金額、通貨コード、電話番号を画像から読み取りJsonで返す指示をしています。

その他参考情報


他に知りたい内容ありましたら、コメントください。

Discussion