📝

Azure OpenAI GPT-4 vs Document Intelligence: 日本語縦書きOCRの比較検証

に公開

概要

Microsoft Azureが提供する2つのOCRサービス(Azure OpenAI GPT-4 VisionとAzure Document Intelligence)を使用して、日本語の縦書き原稿用紙のOCR処理を実施し、その結果を詳細に比較検証しました。

検証対象画像

  • 画像ソース: Canvaテンプレート(400字詰め原稿用紙)
  • URL: https://www.canva.com/ja_jp/templates/EAFbqUoH7P8/
  • 画像の特徴:
    • 20×20の400字詰め原稿用紙
    • 縦書きレイアウト
    • 薄いグリッド線(マス目)
    • タイトル欄と本文欄の区別

正解データ(Ground Truth)

原稿のタイトル

佐藤ちあき

原稿用紙に書くテキストが入ります。作文や小論文を作ったり、小説を書いたりなどにご活用ください。
このテキストを使用する場合は、日本語の全角を使うことでマスにあった文字を打つことができます。手書きで使用したい場合は、このテキストを削除し、印刷してご使用ください。

1. Azure OpenAI GPT-4.1 による認識結果

認識されたテキスト

原稿のタイトル
佐藤 ちあき
原稿用紙に書くテキストが入ります。作文や小論文を作ったり、小説を書いたりなどにご活用ください。
このテキストを使用する場合は、日本語の全角を使うことでマスにあった文字を打つことができます。手書きで使用したい場合は、このテキストを削除し、印刷してご使用ください。

評価

GPT-4.1は縦書きの原稿用紙に対して以下の特徴を示しました:

  • タイトルと著者名の順序を正しく認識
  • 本文の開始部分を正確に認識
  • 原稿用紙のマス目に関する記述を認識
  • 縦書きの読み順(右から左)を完璧に理解
  • 文章の連続性を保持

正解データとの差異

  • 「佐藤ちあき」→「佐藤 ちあき」(全角スペースが追加)
    • これは画像上でスペースがあるように見えるための合理的な解釈
  • その他のテキストは完全に一致

精度評価: 99%

2. Azure Document Intelligence による認識結果

認識された領域の可視化

評価

Document Intelligenceは以下の特徴を示しました:

  • 文字認識能力 - 個々の文字は正確に認識(「佐藤」「ちあき」「原稿」等)
  • ⚠️ 文章の断片化 - マス目ごとに独立した要素として処理され、連続性が失われる
  • 縦書き読み順の課題 - 縦書きの右から左への流れを適切に処理できない
  • ⚠️ 後処理が必要 - 座標情報を使った再構成により、ある程度の復元は可能
  • 座標情報の詳細取得 - 各文字の正確な位置情報は完璧に取得

精度評価: 文字認識精度は約80%、ただし縦書きレイアウトの理解に課題あり

比較分析

性能比較表

評価項目 Azure OpenAI GPT-4.1 Document Intelligence
文字認識精度 ⭐⭐⭐⭐⭐ (99%) ⭐⭐⭐⭐ (80%)
縦書き対応 ⭐⭐⭐⭐⭐ 完璧 ⭐⭐ 後処理が必要
文脈理解 ⭐⭐⭐⭐⭐ 優秀 ⭐⭐ 限定的
読み順の理解 ⭐⭐⭐⭐⭐ 完璧 ⭐⭐ 再構成が必要
原稿用紙対応 ⭐⭐⭐⭐⭐ 最適 ⭐⭐⭐ 工夫次第で対応可
座標情報 ❌ なし ⭐⭐⭐⭐⭐ 詳細取得可能
処理速度 ⭐⭐⭐ 約7秒/画像 ⭐⭐⭐⭐⭐ 約3秒/画像
コスト ⭐⭐ 高い ⭐⭐⭐⭐ 安い

視覚的な比較

GPT-4.1の認識パターン

  • 画像全体を理解し、文書として解釈
  • 縦書きの構造を正しく把握
  • マス目を無視してテキストのみを抽出

Document Intelligenceの認識パターン

  • 各マス目を個別のテキストブロックとして処理
  • 縦の列を「行」として認識(横書き向けの設計)
  • 座標情報を活用すれば再構成の可能性あり

結論

主要な発見

  1. GPT-4.1の圧倒的な優位性

    • 日本語縦書き文書において、GPT-4.1はほぼ完璧な認識を実現
    • 文書の構造、読み順、文脈をすべて正しく理解
  2. Document Intelligenceの特性

    • 縦書き日本語は直接のサポートなし、後処理が必要
    • 文字検出精度は高いが、レイアウト理解に課題
    • 座標情報を活用した高度な処理が可能
    • 横書き文書では高い性能を発揮

実用的な推奨事項

Azure OpenAI GPT-4を選ぶべき場合

  • 📚 日本語縦書き文書のデジタル化
  • 📖 歴史文書・古文書のOCR
  • ✍️ 原稿用紙の処理
  • 🎯 高精度なテキスト抽出が必要な場合

Document Intelligenceを選ぶべき場合

  • 📍 文字位置の特定が重要な場合
  • 🔍 横書き文書の処理
  • 💰 大量処理でコスト重視の場合
  • 処理速度が最優先の場合
  • 🛠️ 後処理による高度なカスタマイズが可能な場合

技術的な考察

この実験から、LLMベースのビジョンモデル(GPT-4)と従来型のOCRエンジン(Document Intelligence)のアプローチの違いが明確になりました:

  • GPT-4: 画像を「理解」し、文脈を考慮した知的な処理。縦書きも含めた多様なレイアウトに柔軟に対応
  • Document Intelligence: 高精度な文字検出と座標抽出に特化。プログラマブルな後処理との組み合わせで高度な処理が可能

両サービスはそれぞれ異なる強みを持ち、用途に応じて使い分けることが重要です。特に日本語の縦書きのような特殊なレイアウトでは、現時点ではGPT-4が優位ですが、Document Intelligenceも座標情報を活用した後処理により対応可能です。

今後の展望

  • Document Intelligenceの日本語縦書き対応の改善に期待
  • GPT-4の処理速度向上とコスト削減
  • ハイブリッドアプローチの可能性(GPT-4で文字認識、DIで座標取得)

Discussion