「実務で後一歩使えない」を解決するLLM・RAG ~PowerPoint/PDFの表を崩さず理解する~
はじめに
Nishika代表の松田です。
Nishikaでは、生成AIを扱った事業を2つ行っています。
- 生成AIによる会議録特化要約機能を搭載したAI議事録ツールSecureMemoCloudの提供
- 生成AIを活用した企業向けコンサルティング・開発
生成AIを活用するユースケースとして、生成AIに社内ドキュメントを検索し回答させる、LLM・RAGを活用したエンタープライズサーチシステムの引き合いが非常に多くあります。
これは弊社に限らない傾向と思われ、生成AIを実業務のユースケースとして使うときの最たる例だと思います。
念の為おさらいしておくと、RAGはRetrieval Augmented Generationの略で、日本語では「検索拡張生成」となります。
GPTをはじめとした生成AI(LLM)は、自分達が学習した時点までの情報(ナレッジカットオフ)に基づいてしか回答できませんが、企業でLLMを活用しようと思うと、社内情報も学習して回答して欲しい、と思うのは当然です。
社内ドキュメントを「検索」して、自分の知識を企業内情報まで「拡張」して、回答を「生成」したい、これを実現する仕組みがRAGです。
しかし、そもそも弊社にRAG案件のお声がけをいただく理由として、実際にLLM・RAGを使ってシステムを構築してみたものの
- なかなか適切なドキュメントをひっかけてくれない
- PowerpointやExcel、PDFなど構造を持ったドキュメントになるとちゃんと意味を理解してくれない
- 画像になっているドキュメントも合わせて見てほしい
といった、使う側からすれば当然とも言えるニーズをよく伺います。
LLM・RAGを使ったシステムは、思ったように実務での利用に繋がっておらず、 「実務で後一歩使えない」 という厳しい評価をいただくことも少なくないようです。
論文で示されるベンチマークスコアでの生成AI間の競争は激しさを増し、ベストスコアは更新され続け生成AIの発展は著しいように見える昨今ですが、実務でのユースケースで役に立っているか、という目線での進捗は遅々としています。
本記事では、弊社が直面してきた、実務ならではの典型的な課題、およびそれをどのように解決したか、について紹介していきます。
技術的に先進的であることよりも、精度・速度・コスト・セキュリティ等実務で求められるハードルを如何にクリアしていったかについて紹介していきます。
生成AIやOpenAIEmbeddingsを使ったドキュメントのベクトルサーチに限らず、あの手この手を使ってお客様の目標を達成しにいっている実態をご紹介していければと思います。
1つ1つの記事は短く、連載形式でご紹介していきます。
【実務での悩み】 PowerPointやPDFの表を構造を崩して読んでしまう
例えば、以下のような表が含まれるスライドに基づき生成AIに回答をさせたいというケース、よくあると思います。
RAGの構築によく使われるライブラリLangchainを活用し、PowerPointをloadすると読み込んだテキストは以下のようになります。
コンペティション型AI開発\n\n類似商標画像の検出\u3000「AI×商標:イメージサーチコンペティション」\n\n背景 商標画像の申請件数は毎年増加 特許庁が従前使用してきたAIシステムでは、特に部分一致や方向違いなどの画像の検出が困難で精度面に課題 コンペ概要 類似画像検索タスク 正解データとして、実際の出願画像に審査官が類似と判定した画像をペアとしたセットを提供 検索対象データとして、承認済み商標画像約80万枚を提供 賞金総額50万円、約2ヶ月間の開催 評価方法 約80万枚の商標画像から、出願画像に類似している画像候補20を選定。 結果 600チーム以上の個人・企業が参加 上位入賞モデルはいずれも、従前のシステムの倍以上の精度を達成\n\n優勝モデルは従前モデルの\x0b約3倍の精度を達成\n\n
このように、元の表の構造が崩れて読み込まれています。
このドキュメントに対して、
評価方法について述べよ
と質問すると、
コンペティションの評価方法は、提供された約80万枚の商標画像のデータセットから、出願された画像に最も類似しているものとして画像候補20枚を選定するというものです。この選定された画像候補は、実際に審査官が類似と判定した画像ペアの正解データと比較されることで、各参加チームのモデル精度が評価されます。選定された20枚の画像が正解データとどの程度一致しているかに基づき、モデルが評価されることになります。そして、上位入賞したモデルは従来使用されていたAIシステムよりも倍以上の精度を達成していることが述べられており、優勝モデルは従来のモデルの約3倍の精度を達成したと記載されています。
と回答され、評価方法に該当しない内容も含めて述べてしまっています(「上位入賞したモデルは従来使用されていたAIシステムよりも倍以上の精度を達成していることが述べられており、優勝モデルは従来のモデルの約3倍の精度を達成したと記載されています。」)。
元の表の構造が崩れてしまったため、評価方法に該当する内容がどこからどこまでなのか、生成AIには判断がつかなくなってしまっています。
【解決手段】 Azure Document Intelligenceの利用
さて、このような問題は非常によくあるケースだと思いますが、対処方法の1つはOCRを含むドキュメント解析の技術を活用することです。
ここでは、Azure Document Intelligenceを活用したケースを紹介します。
Azure Document Intelligenceを使って、PDFをドキュメント解析させます。
認識の結果は以下の通り。
ドキュメント解析により、表をテキストの羅列としてではなく表として認識できた点が最も大きな進歩です。
各テキストが、どの行名・列名に対応した項目なのかを保持しておくことができます。
このように認識した結果を生成AIが理解できるよう、markdown形式として出力させます。
<!-- PageHeader="コンペティション型AI開発" -->\n\n<figure>\n\n![](figures/0)\n\n<!-- FigureContent="特許庁 JAPAN PATENT OFFICE" -->\n\n</figure>\n\n\n類似商標画像の検出 「AI×商標:イメージサーチコンペティション」\n===\n\n|||\n| - | - |\n| 背景 | · 商標画像の申請件数は毎年増加 · 特許庁が従前使用してきたAIシステムでは、特に部分一致や方向違いなどの画像の検出が困難で精度面に課題 |\n| コンペ概要 | · 類似画像検索タスク · 正解データとして、実際の出願画像に審査官が類似と判定した画像をペアとしたセットを提供 · 検索対象データとして、承認済み商標画像約80万枚を提供 · 賞金総額50万円、約2ヶ月間の開催 |\n| 評価方法 | · 約80万枚の商標画像から、出願画像に類似している画像候補20を選定。 実際に審査官が類似と判定した画像が含まれていれば正解 |\n| 結果 | · 600チーム以上の個人·企業が参加 · 上位入賞モデルはいずれも、従前のシステムの倍以上の精度を達成 |\n\n引用:1000400231.jpg\n\n出願:1000289808.jpg\n\n<figure>\n\n![](figures/1)\n\n</figure>\n\n\n<figure>\n\n![](figures/2)\n\n</figure>\n\n\n優勝モデルは従前モデルの 約3倍の精度を達成\n\n<!-- PageFooter="C Nishika, Inc" -->\n\n<!-- PageNumber="1" -->\n\n<!-- PageFooter="Nıshıka" -->\n
このドキュメントを生成AIに読み込ませ、先ほどと同じ質問をしてみます。
評価方法について述べよ
と質問すると、
評価方法について述べます。「AI×商標:イメージサーチコンペティション」では、約80万枚の承認済み商標画像から、提出された出願画像に類似していると考えられる画像候補20枚を選定します。これらの候補の中に、実際に審査官が類似と判定した画像が含まれている場合、その選定が正解とされます。この方法によってAIの性能が評価されました。
先ほどと異なり、正しく評価方法に該当する内容のみを拾えています。
(閑話:ちなみにAzure Document Intelligenceが対象とする表構造解析タスクは、古くからある技術ですが未だに課題が尽きません。例えば、横にしか罫線が引かれていない表の構造認識は、セルの境界の正確な識別が意外に難しい。とはいえ、画像理解が可能な生成AIの登場でこの課題も全く別技術により解決に向かうかもしれません。)
有用な技術であることは分かりましたが、実務導入の判断においては費用対効果も重要です。
Azure Document Intelligenceの費用は、以下によれば1000ページあたり10USD。
もちろんドキュメントに対して1度解析をかければ十分なので、多くの場合十分ROIがとれる技術と言えます。
まとめ
Azure Document Intelligenceを活用することで、何も考えずにテキストを読み込むと崩れてしまう表などの構造情報を保持したまま生成AIに読み込ませることができ、結果回答性能が向上することが分かりました。
たったこれだけですが、エンタープライズサーチで読み込ませたいドキュメントの多くはプレーンなテキストと表から成ることから、「実務で使える」という意味では大きな効果を生みます。
一方で、特にパワーポイントなどはレイアウトの制限がないことから、表に限らない自由なフォーマットでドキュメントが作成されます。その場合はOCRだけでは対処しきれないケースがあることも事実です。そのような場合に対応した例を、別記事にてご紹介したいと思います。
Nishikaについて
Nishikaは2019年に創業、「テクノロジーですべての人が誇りを持てる社会の実現」をビジョンに掲げ、「テクノロジーを、普段テクノロジーからは縁の遠い人にとっても当たり前の存在としていき、皆の仕事の付加価値・業務効率を向上させることに貢献したい」と考え、活動しています。
AIプロダクト事業/AIコンサルティング・開発事業/AI人材事業を手掛け、AIコンサルティング・開発事業では「生成AIを使うと何が嬉しいのか、通り一遍ではない使い方を知りたい」という段階のお客様から、伴走してご支援するアプローチを強みとしています。
We're hiring!
Nishikaテックチームでは、「テクノロジーを、普段テクノロジーからは縁の遠い人にとっても当たり前の存在としていく」を目指し、音声AIプロダクトの開発・生成AIを活用した課題解決ソリューションの構築を行なっています。
興味をお持ちいただけた方は、以下リンクからご応募お待ちしています。インターンも募集しております!
Discussion