🖼️

マルチモーダルな GPT-4V は画像形式の文章をマークダウン化するのに使えるんじゃないか説

2023/11/09に公開

はじめに

同僚と会話していて GPT-4V を使えば画像形式の文章を簡単にマークダウン形式に変換できるんじゃないかという説が出たため、超ざっくり検証を行ってみました。

ちなみに、モチベーションとしては以下のとおりです。
RAG (Retrieval Augmented Generation) が流行ってる → バックエンドのナレッジベースが重要 → ナレッジベースを作るうえで画像からの情報抽出が課題になるケースがわりとある → 何か楽をできそうな方法はないか?

検証

Azure OpenAI Service にはまだ GPT-4V が来ていないため本家 OpenAI の ChatGPT Plus を使います。

【追記】 Azure OpenAI Service の GPT-4 Turbo with Vision のプレビューが開始しました。
https://techcommunity.microsoft.com/t5/ai-azure-ai-services-blog/gpt-4-turbo-with-vision-on-azure-openai-service/ba-p/3979933
https://zenn.dev/microsoft/articles/cd3060cbcf0303

英語文章の画像

このドキュメントの冒頭部分のスクリーンショットをマークダウン化してみます。

結果

左が元画像、右が生成されたマークダウンを Visual Studio Code でプレビュー表示したものです。
仕組み上リンクの埋め込みはできませんが、マークダウン化はほぼ完璧に行えています。

生成されたマークダウン

# What is Azure OpenAI Service?

Article - 10/16/2023 · 4 contributors

## In this article
- [Responsible AI](#)
- [How do I get access to Azure OpenAI?](#)
- [Comparing Azure OpenAI and OpenAI](#)
- [Key concepts](#)
- [Next steps](#)

Azure OpenAI Service provides REST API access to OpenAI's powerful language models including the GPT-4, GPT-3.5-Turbo, and Embeddings model series. In addition, the new GPT-4 and GPT-3.5-Turbo model series have now reached general availability. These models can be easily adapted to your specific task including but not limited to content generation, summarization, semantic search, and natural language to code translation. Users can access the service through REST APIs, Python SDK, or our web-based interface in the Azure OpenAI Studio.

## Features overview

| Feature                   | Azure OpenAI                                          |
|---------------------------|-------------------------------------------------------|
| Models available          | GPT-4 series <br> GPT-3.5-Turbo series <br> Embeddings series <br> Learn more in our [Models page](#). |
| Fine-tuning (preview)     | GPT-3.5-Turbo (0613) <br> babbage-002 <br> davinci-002. |
| Price                     | [Available here](#)                                    |
| Virtual network support & private link support | Yes, unless using [Azure OpenAI on your data](#). |
| Managed Identity          | Yes, via Microsoft Entra ID                            |
| UI experience             | Azure portal for account & resource management, <br> Azure OpenAI Service Studio for model exploration and fine-tuning |
| Model regional availability | [Model availability](#)                                |
| Content filtering         | Prompts and completions are evaluated against our content policy with automated systems. High sensitivity content will be filtered. |

日本語文章の画像

次に日本語版のこのドキュメントの同じ部分をマークダウン化してみます。

結果

左が元画像、右が生成されたマークダウンを Visual Studio Code でプレビュー表示したものです。
英語に比べると文字認識の精度がやや低いようで、上手く読み込めていない部分は言語モデルが補完して文章を生成しているような印象を受けます。

生成されたマークダウン

# Azure OpenAI Service とは

[アーティクル] ・ 2023/10/26 ・ [4 人の共同作成者](リンク)

## この記事の内容

- 基礎から AI
- Azure OpenAI エクスプローラとはどういうものですか?
- Azure OpenAI と OpenAI の比較
- 主要機能概要
- 次の手順

Azure OpenAI Service は、GPT-4、GPT-3.5-Turbo、理論およびモデル シリーズなど OpenAI の強力な言語モデルに、REST API でのアクセスを提供します。また、新しい GPT-4 + GPT-3.5-Turbo モデルシリーズは一般提供にはありません。これらのモデルは、特定の契約に合わせて専用に構築されます。たとえば、コンテンツの生成、会話、セマンティック検索、自然言語理解 ラボへの適用などです。ユーザーは、REST API、Python SDK、または Azure OpenAI Studio の Web ベースのインターフェースを介してサービスにアクセスできます。

## 機能の概要

| 機能 | Azure OpenAI |
| --- | --- |
| 使用できるモデル | GPT-4 シリーズ<br>GPT-3.5-Turbo シリーズ<br>理論およびシリーズ<br>詳細については、[モデルに関するページを参照してください。](リンク) |
| 管理対象 (プレビュー) | gpt-3.5-turbo (0613)<br>babbage-002<br>davinci-002 |
| Price | [こちらをご利用ください](リンク) |
| 使用時のトークンのサポート & プライバシーポリシーのサポート | はい (詳細のチェックは[こちら](リンク) Azure OpenAI を使用しない限り)。 |
| マーケットID | なし、Microsoft Entra ID を使用 |
| UI カスタマイズシステム | アカウントとユーザーの管理には Azure Portal。<br>モデルの変更と構築には Azure OpenAI Service Studio。 |
| FPGA のリージョン別の提供状況 | モデルの使用状況 |
| コンテンツのライフループ管理 | プロジェクトと分類は、目的ごとステムを高コンテンツ ポリシーに対して評価されます。全文検索の高いコンテンツはフィルターで除外されます。 |

日本語文章の画像 (Vison Enhancement)

Azure OpenAI Service の GPT-4 Turbo with Vision には Vision Enhancement (Vision 拡張機能) という独自機能が搭載されています。Vision Enhancement を有効にすると、GPT-4 Turbo with Vision の動作が Azure AI Vision によって補強され、OCR 性能を向上させたり、物体検知を行うことができます。今度は Auzre OpenAI Service にて Vision Enhancement を有効にして、同じ画像をマークダウン化させてみます。


結果

左が元画像、右が生成されたマークダウンを Visual Studio Code でプレビュー表示したものです。素の GPT-4 Turbo with Vision と比べて日本語の読み取り精度が向上しています。

※ temperature = 0

生成されたマークダウン

# Azure OpenAI Service とは

[アーティクル]・2023/10/26 ・4人の共同作成者

## この記事の内容

- 責任ある AI
- Azure OpenAI にアクセスするにはどうすればよいですか?
- Azure OpenAI と OpenAI の比較
- 主要な概念
- 次の手順

Azure OpenAI Service は、GPT-4、GPT-3.5-Turbo、埋め込みモデル シリーズなど OpenAI の強力な言語モデルに、REST API でのアクセスを提供します。また、新しい GPT-4 と GPT-3.5-Turbo モデルシリーズは一般提供になりました。これらのモデルは、特定のタスクに合わせて簡単に調整できます。たとえば、コンテンツの生成、まとめ、セマンティック検索、自然言語からコードへの翻訳などです。ユーザーは、REST API、Python SDK、または Azure OpenAI Studio の Web ベースのインターフェイスを介してサービスにアクセスできます。

## 機能の概要

| 機能 | Azure OpenAI |
| --- | --- |
| 使用できるモデル | GPT-4 シリーズ<br>GPT-3.5-Turbo シリーズ<br>埋め込みシリーズ<br>詳細については、[モデルに関するページ](#)を参照してください。 |
| 微調整 (プレビュー) | GPT-3.5-Turbo (0613)<br>babbage-002<br>davinci-002 |
| Price | [こちらで入手可能です](#) |
| 仮想ネットワークのサポート & プライベートリンクのサポート | はい (独自のデータに基づく Azure OpenAI を使用しない限り)。 |
| マネージド ID | はい。Microsoft Entra ID を使用 |
| UI エクスペリエンス | アカウントとリソースの管理には Azure Portal、<br>モデルの探索と微調整には Azure OpenAI Service Studio |
| FPGA のリージョン別の提供状況 | モデルの可用性 |
| コンテンツのフィルター処理 | プロンプトと入力候補は、自動システムを使ってコンテンツ ポリシーに対して評価されます。重大度の高いコンテンツはフィルターで除外されます。 |

参考

おわりに

英語かつ今回試したような比較的シンプルな構造の文章の画像であれば普通に使えそうです。一方で、素のモデルの日本語 OCR 性能にはやや難がありますが、Azure Open AI Service にて Vision Enhancement を有効にすれば及第点ラインに達するかなという印象です。

以上です。🍵

Microsoft (有志)

Discussion