📄

リッチドキュメントは本当にAI時代の敵なのか?  markitdown検証で見るExcelの可能性と限界

に公開

検証の背景:「Excelは悪」から「どこまでいけるか」へ

「AI駆動開発」という言葉が普及してきたほど、システム開発の現場ではAIを活用することが当たり前となっている。その中でも「ドキュメントはMarkdownで書くべき」というのが定説になりつつある。
AIにとって読み取りやすく、gitなどでバージョン管理もしやすいからだ。

しかし、現実には膨大なExcelドキュメントが存在し、おそらく今後も作られ続ける。リッチドキュメントtoプレーンテキストの移行には関係者との調整が必要になるシーンも多く、悩んでいる方も多いだろう。

そこで今回は、「現在のAIはリッチドキュメントをどこまで理解できるのか?」 を検証してみた。

利用するのは、Microsoftが公開する変換ツール「markitdown」。
このツールでExcelファイルをMarkdown化し、Gemini、Claude(ウェブアプリ、最新モデル)などに投げてみる。

検証パターンは2つ

  1. Excelファイルを直接AIに与える
  2. markitdownでMarkdown変換してから与える

この比較から、リッチドキュメントの理解限界を探っていく。

markitdownとは何か

markitdownは、MicrosoftがAIを活用したドキュメント理解に特化して開発した多機能なOSSだ。その技術的な特徴は以下の通り:

主要な変換機能

PDF変換: pdfminerライブラリでプレーンテキストを抽出する基本的なアプローチを採用している

Word (DOCX)変換: mammothライブラリを使い、見出しや表構造を可能な限り保持しながらMarkdownに変換する

Excel (XLSX/XLS)変換: pandasとopenpyxlを組み合わせ、各シートを個別のMarkdownテーブルとして出力する仕組みだ

AI連携機能

画像解析ではOpenAI API互換のマルチモーダルLLMを使用し、音声転写やYouTube動画の文字起こしにも対応している。さらにAzure Document Intelligence APIを使った高精度OCR、exiftoolによるメタデータ抽出など、単なる変換ツールの枠を超えた機能を持つ。

検証1:シンプルなテーブルの変換

まず、複数ページを持つシンプルなテーブル要素のExcelファイルで検証を行った。

markitdownを利用した変換後

結果: Excelを直接与えても、Markdown変換後に与えても、どちらも期待通りの回答が得られた。

シンプルな表構造の場合、AIの理解精度に大きな差は見られない。つまりどちらの方法でも問題なく処理できるということだ。

ただし、Markdown化には技術的なメリットがある:

  • ツール選択の自由度: リッチドキュメントに対応していないサービスでも処理可能
  • 処理の効率化: Excelの解析処理(Pythonライブラリの読み込み、シート構造の把握など)が不要
  • トークンの最適化: プレーンテキストとして扱えるため、トークン消費を抑え、より多くの情報を処理できる

シンプルな構造なら結果は変わらないが、Markdown化しておけば処理の確実性と効率性が上がる、というのが実態だ。

検証2:複雑な論理関係性を持つテーブル―ここが本題

次に、IPAが公開する要件定義書のサンプルファイル(ダウンロードリンク)を使用した。これは実務で使われるような、論理的に複雑な構造を持つExcelファイルだ。

このExcelは入れ子構造で、上位階層が縦方向にセル結合され、配下の要素をグルーピングしている、
セル結合による暗黙的な親子関係、理番の不規則性(大分類・中分類のみ採番、以降は採番なし)、セル結合の範囲を解析しないと親子関係が判別できないなど、少しだけ複雑になっている。

検証結果

複数の質問を投げて、理解精度を検証した:

検証内容 期待値 Claude Sonnet 4.5
(Excel直接/MD変換後)
Gemini 2.5pro
(Excel/MD変換後)
備考
「拡大・縮小」中分類の業務処理名の数 4 ✅ / ✅ ✅ / ✅ 基本的なカウント
「地図操作機能」の大分類番号と中分類数 大分類番号1、中分類3つ ✅ / ✅ ✅ / ✅ 階層構造の理解
行番号14「画面表示」中の「拡大図表示」 拡大図表示 ✅ / ✅ ✅ / ✅ 階層の詳細把握
「店舗表示」の出現回数 0(存在しない) ✅ / ✅ ✅ / ✅ 存在しないデータの検証
「参照」を含む業務処理名の数と所属 複数の詳細情報 ❌ / ✅ ❌ / ✅ MD変換後のみ正解

検証試行は各1回のみ。データ処理が絡むため、再現性は保証されない点に注意

3ヶ月前との比較:劇的な進化

実は同じ実験を3ヶ月前(2024年7月)にも実施している

当時の結果は惨憺たるものだった:

  • 上記の質問はすべて失敗
  • もっと単純な質問にすら正しく答えられなかった
  • そもそもExcelの解析に失敗する

当時の単純質問の一部検証例:

ここ3ヶ月だけでも、AIの理解能力は劇的に向上したように思う

検証から見えた真実:リッチドキュメントの「到達点」

この検証で明らかになったのは、以下の3点だ:

  1. シンプルな構造なら余裕: 基本的なテーブル程度なら、変換も直接読み取りも問題ない
  2. 複雑な構造が分水嶺: 論理関係が複雑になると、Markdown変換経由が確実。ただし最新モデルは直接理解できるケースも増えている。
  3. 進化の速度が予想以上: 3ヶ月前に失敗していた処理が、現在のモデルでは理解できるようになっている

結論:リッチドキュメントは「まだ早い」が「もうすぐ」

現時点の推奨: やはりMarkdown化が確実だ。markitdownのような変換ツールを使えば、リッチドキュメントを与えるよりもほぼ確実にAIが理解できる形式に正規化できる。

しかし注目すべきは進化の速度だ。わずか3ヶ月でこれだけ正答率が向上している。複雑なExcelを直接理解できるモデルが続々と登場している。今後1〜2年で「変換不要」の時代が来る可能性は十分にある。

実務での推奨戦略

Excelが深く浸透しており、現場の人間を変えるのに苦労する環境であれば、無理にMarkdownへのスイッチングを強要する必要はないかもしれない

代替案として:

  • 複雑性を抑えたExcelテンプレートの策定: AIが理解しやすい構造ルールを定める
  • 段階的な移行: 新規ドキュメントから徐々にMarkdown化
  • ハイブリッド運用: 現時点ではmarkitdownで保険をかけつつ、将来的な直接処理を見据える

このあたりだと、現場でも現実的な落としどころになるかもしれない。

なおmarkitdownによる変換も綺麗なmdとならないケースがある。
最後に、Markdown移行に取り組むエンジニアの方々のために、リフォーマットに関する記事の共有。
https://dev.classmethod.jp/articles/markditdown-claude-code-excel-reformat/

Discussion