🔎

【AI OCR×LLM】ここまで来たかAI OCR

2024/12/16に公開

はじめに

AI OCRを使ったことがある方は、ご存知かもしませんが、これまでのAI OCRは「特定の形式の帳票を覚えこませて、同じ形式の帳票を高いレベルで読み取る定型帳票読取」「請求書だけの学習をしたAIを使って、請求書の特定項目(請求金額など)を読み取る非定型帳票読取」というような製品が主でした。

図1:従来のAI OCRのアプローチイメージ(個人作成)
 

この従来のアプローチだと、以下の例のような、いくつかの課題がありました。

課題例1:学習されていないようなイレギュラーな形式の帳票の読み取りができない
課題例2:特定帳票に特化した学習が必要であり、製品が想定していない帳票のモデルは存在しない

しかしながら、AI OCRの近年のトレンドも「生成AI」にシフトしてきていて、この課題は解決されてきましたので、ご紹介させていただきます。

AI OCR × LLM

AI OCRとLLMの組み合わせとは、まずどういった構造なのか?についてご説明します。
形は非常にシンプルです。
1:AI OCRで全文読み取り
2:1で読み取った内容を元にプロンプトを記載
3:プロンプトに基づき、さまざまな帳票の必要項目を抽出

図2:AI OCR×LLMのアプローチイメージ(個人作成)
 

このアプローチの斬新なところは、先述したような課題を解決できるところにあります。分かりにくいかもしれないので、いくつか例を記載します。

例1:AI Inside社 DX Suite「項目抽出」

まず最初にご紹介するのは、AI Inside社が提供するAI OCR 「DX Suite」の「項目抽出」です。

この製品は「項目名と、必要に応じてプロンプトを設定すると、読み取った帳票の該当値をLLMが予測し、抽出、データ化してくれる」という製品です。

一つずつ見ていきましょう。

項目の設定

まずは項目の設定です。
以下のような画面から、データ化したい値を設定します。

図3:項目の設定画面:AI Inside社サイトより

例えば、請求書の請求金額、税抜金額、10%税額 etcのように抽出したい項目の項目名だけをシンプルに記載していきます。

プロンプトの記載

これまでのところで、「項目名だけで、LLMが抽出の場所を特定できるのか?」と思われた方も少なくないでしょう。そんな方のために、「各項目に紐付く、プロンプトの設定」も可能です。

図4、5:プロンプトの設定画面:AI Inside社サイトより


ここに、例えば「請求金額は、合計金額の近くに記載されることが多い」や「税抜金額には、(税抜)の近くに記載される」などの各帳票パターンで良くあるケースを入力しておけば、より精度を高めることができます。

データ化

細かいステップを割愛しますが、最後にデータ化すると、以下のように設定した項目と、それに紐付く値が抽出されます。これらは、CSVなどのエクスポートを実施することも可能です。

図6:読取テストの結果:AI Inside社サイトより

例2:AI OCR全文読み取り × LLM

さて、先ほどの事例を見て、こう思われた方もおられるかもしれません。
これは、「自分でも作れるかもしれない!?」と。

まさにその通りです。
例えばAzure環境をお持ちであれば、Azure Document Intelligenceの全文読み取りのAI OCRと、Azure OpenAI Serviceを組み合わせて、より自社に合ったプロンプトを書いて、抽出をすることも可能です。

全文読み取りのOCRの精度に依存します(特に日本語が苦手なケースが多い)が、プロンプトの自由度がますます高まります。トライアンドエラーしながら自社に最も合うプロンプトを見つけ出せれば、精度も高められるかもしれません。

例3:マルチモーダルなAI

最後に、マルチモーダルによる対応というところもご紹介します。
例えば、ChatGPTには、画像やファイルを読み取り、それに応じたプロンプトを記載することができますよね。その機能を使ってAI OCR相当のことができないか?ということです。
これは実際にやってみましょう。

請求書画像をアップロード

請求書画像をインターネットから取得し、画像をChatGPTにアップロード

図7:Canvaより取得した請求書画像サンプル

請求書画像の抽出したい項目を指示

以下のような簡単なプロンプトで指示。
 

結果を確認

今回は、完璧に抽出ができました。

ただ、実際の請求書となると、もっと品質が低かったり、形がイレギュラーなことが多いので、本格的に試してみないと本当に精度が高いかは微妙なところですね。
もしご興味があれば、ぜひ試してください。

おわりに

今回はAI OCRについて語りましたが、LLMの登場により、この領域にも非常に大きなインパクトがありました。もし、皆様の中でAI OCRは大したことないと思っている方々がおられれば、発展途上の段階ですが、さらなる進化がこれから生まれてきそうな予感を感じる一助になれば幸いです。

Accenture Japan (有志)

Discussion