🐈

LLMによる原稿用紙OCR性能比較:縦書き日本語の認識精度検証

に公開

はじめに

本記事では、実際の原稿用紙画像を用いて主要LLMモデルのOCR性能を比較検証しました。多くのOCRベンチマークが印刷文書や横書きテキストを対象とする中、日本独自の縦書き原稿用紙という特殊なフォーマットでの認識精度を評価することで、各モデルの日本語文書理解能力をより実践的に検証しています。

本検証の特徴

  • 原稿用紙という日本固有のフォーマットを使用:マス目に収められた文字、縦書きレイアウト、特有の余白構成など、複雑な要素を含む画像での検証
  • 実用シーンを想定:作文、小説、論文など、実際の執筆場面で使用される原稿用紙での性能評価
  • 最新モデルの網羅的比較:GPT-5、GPT-4.1、Gemini 2.5 Pro、Claude Opus 4.1、Claude Sonnet 4という最新モデルを同一条件で比較

検証概要

使用画像

  • 画像ソース: Canvaテンプレート(400字詰め原稿用紙)
  • URL: https://www.canva.com/ja_jp/templates/EAFbqUoH7P8/
  • 画像の特徴:
    • 20×20の400字詰め原稿用紙
    • 縦書きレイアウト
    • 薄いグリッド線(マス目)
    • タイトル欄と本文欄の区別

検証条件

  • 使用プロンプト: 「OCRして」(全モデル共通)
  • パラメータ: 各モデルのデフォルト設定
  • 実行時期: 2025年9月

正解テキスト

原稿のタイトル
佐藤 ちあき

原稿用紙に書くテキストが入ります。作文や小論文を作ったり、小説を書いたりなどにご活用ください。
このテキストを使用する場合は、日本語の全角を使うことでマスにあった文字を打つことができます。手書きで使用したい場合は、このテキストを削除し、印刷してご使用ください。

評価方法

本記事の精度スコアは、文字認識の正確性、レイアウト理解、文章構造の保持などを総合的に評価した主観的なスコアです。実用的な観点から、各モデルの強みと課題を分かりやすく数値化しています。

OCR結果詳細

🥇 Gemini 2.5 Pro - 精度スコア: 98/100

原稿のタイトル
佐藤ちあき
原稿用紙に書くテキストが入ります。作文や小論文を作ったり、小説を書いたりなどにご活用ください。
このテキストを使用する場合は、日本語の全角を使うことでマスにあった文字を打つことができます。手書きで使用したい場合は、このテキストを削除し、印刷してご使用ください。

評価ポイント:

  • ✅ 文字認識: ほぼ完璧
  • ⚠️ 著者名のスペース欠落
  • ✅ 段落構成: 適切な2段落構成
  • ✅ レイアウト保持: 優秀

🥈 GPT-5 - 精度スコア: 97/100

原稿のタイトル
佐藤 ちあき
原稿用紙に書くテキストが入ります。作文や小論文を作ったり、小説を書いたりなどにご活用ください。このテキストを使用する場合は、日本語の全角を使うことでマスにあった文字を打つことができます。手書きで使用したい場合は、このテキストを削除し、印刷してご使用ください。

評価ポイント:

  • ✅ 文字認識: 完璧
  • ✅ 著者名にスペースあり
  • ❌ 段落分けなし(1段落で連続)
  • ✅ 本文: 完全に正確

🥉 GPT-4.1 - 精度スコア: 92/100

原稿のタイトル
原稿用紙に書くテキストが入ります。作文や小論文を作ったり、小説を書いたりなどにご活用ください。
このテキストを使用する場合は、日本語の全角を使うことでマスにあった文字を打つことができます。手書きで使用したい場合は、このテキストを削除し、印刷してご使用ください。
佐藤 ちあき

評価ポイント:

  • ✅ 本文認識: 完璧
  • ❌ 著者名位置: 末尾に誤配置
  • ✅ 著者名にスペースあり
  • ✅ 段落構成: 適切

Claude Opus 4.1 - 精度スコア: 70/100

原稿のタイトル
佐藤ちあき
原稿用紙に書くテキストが入ります。作文などに活用ください。
や小論文を作ったり、小説を書いたりなどに、このテキストを使用する場合は、日本語の全角を使うことができます。手書きで使用したい場合は、印刷してご使用ください。

評価ポイント:

  • ❌ 文章の流れが崩壊(「作文などに活用ください」で切れている)
  • ❌ 「や小論文を」で文が始まる不自然さ
  • ⚠️ 「マスにあった文字を打つこと」が欠落

Claude Sonnet 4 - 精度スコア: 65/100

原稿のタイトル
佐藤ちあき
やや小論文を作ったり、小説を書いたりなどに作文ご活用ください。
このテキストを使用する場合は、日本語の全角を使うことでマスにあった文字を打つことができます。手書きで使用したい場合は、このテキストを削除し、印刷してご使用ください。

評価ポイント:

  • ❌ 「やや」という誤認識
  • ❌ 語順の混乱(「作文ご活用ください」)
  • ❌ 冒頭部分の欠落
  • ✅ 後半部分: 正確

分析と考察

性能ランキング総括

順位 モデル 精度スコア 強み 課題
1 Gemini 2.5 Pro 98/100 適切な段落構成、文字認識 著者名のスペース欠落
2 GPT-5 97/100 完璧な文字認識 段落分けなし
3 GPT-4.1 92/100 段落構成、本文の正確性 著者名の位置
4 Claude Opus 4.1 70/100 基本的な認識 文章構造の崩壊
5 Claude Sonnet 4 65/100 後半部分の認識 冒頭欠落、語順混乱

原稿用紙特有の課題

  1. マス目の影響

    • グリッド線を文字の一部と誤認識
    • マス目による改行の強制的な解釈
  2. 縦書きレイアウトの複雑性

    • 右から左への列移動の理解
    • 段落間の空白の解釈
  3. メタ情報の配置

    • タイトルと著者名の位置関係
    • 本文との区別

モデル別の特徴的な挙動

Google系(Gemini)

  • 原稿用紙のフォーマットを最も正確に理解
  • 日本語の文書構造に対する深い理解

OpenAI系(GPT-5、GPT-4.1)

  • 安定した文字認識能力
  • レイアウトよりも内容の正確性を優先

Anthropic系(Claude)

  • 縦書きレイアウトの解釈に苦戦
  • 特にOpus 4.1では文章の重複という特異な挙動

実用上の推奨事項

シナリオ別推奨モデル

  1. 小説・創作物の原稿

    • 推奨: Gemini 2.5 Pro
    • 理由: レイアウト保持と高精度
  2. 論文・レポート

    • 推奨: GPT-5
    • 理由: 内容の正確性重視
  3. 大量処理・コスト重視

    • 推奨: GPT-4.1
    • 理由: 十分な精度とバランス

原稿用紙OCRのベストプラクティス

  1. 前処理

    # 推奨設定例
    - 解像度: 300dpi以上
    - カラーモード: グレースケール
    - コントラスト調整: +20%
    
  2. プロンプト最適化

    「これは日本語の縦書き原稿用紙です。
    右上から左下に向かって読み、
    タイトル、著者名、本文の順で記載されています。」
    
  3. 後処理フロー

    • 複数モデルでのクロスチェック
    • 重複部分の自動削除
    • 著者名位置の検証

まとめ

原稿用紙という日本独自のフォーマットでのOCR検証により、各LLMモデルの実践的な性能差が明確になりました。Gemini 2.5 ProとGPT-5が高精度を示し、それぞれ段落構成と文字認識で強みを見せました。一方、Claude系モデルは縦書きレイアウトの理解という課題が明らかになりました。

注意事項

本検証は「OCRして」というシンプルなプロンプトでの結果です。プロンプトの工夫やパラメータ調整により、各モデルの性能は大きく向上する可能性があります。例えば、「縦書きの日本語原稿用紙」であることを明示したり、温度パラメータを調整することで、より高精度な結果が得られる場合があります。

本記事の結果は、あくまで参考程度にご活用いただき、実際の用途では各自で最適な設定を探索されることをお勧めします。


検証日: 2025年9月
使用画像: Canvaテンプレート EAFbqUoH7P8
使用プロンプト: 「OCRして」

Discussion