📷

「実務で後一歩使えない」を解決するLLM・RAG ~画像・図形付きのスライドを理解する~

2024/05/20に公開

Nishika DSの髙山です。
今回も「実務で後一歩使えない」シリーズで、「実務で後一歩使えない」を解決するLLM・RAG ~PDFの表を崩さず理解する~の連載になります。

実際にLLM・RAGを使ったシステムを構築した際に、何も工夫をしないと「画像を含むスライドを理解できない」「図形・テキストボックスを含むスライドを理解できない」という課題によく遭遇します。

画像や図形・テキストボックスがある場合にどのような課題があるのか、その解決策を紹介します。

【実務での悩み】画像の内容やテキストボックスの位置関係を踏まえたドキュメントの解釈ができない!

以下の画像は弊社議事録アプリのSecureMemoで使用されている弊社独自の音声認識モデルshirushiの紹介スライドです。こちらについてナイーブにテキスト情報をUnstructuredで抽出してGPT-4 Turboにグラフの内容を説明させてみましょう。

<画像を含むスライドの例>

説明させてみると、棒グラフのshirushiの精度の数値の比較がされておらず、重要な内容が欠落しています。

ドキュメントの内容は、SecureMemoという製品についての特徴を説明しています。特に、shirushiという音声認識モデルが、リアルな会議音声を用いた精度評価で他社の製品よりも優れた結果を示していると述べられています。このモデルはビジネス会議音声の認識において、大きな強みを持っているとされています。

ドキュメントによれば、音声認識精度の評価は、SecureMemoCloudに投入された実際の会議音声を用いて行われており、評価方法は正解テキストと音声認識モデルによって認識されたテキストを比較することによっています。ここで使用される指標はCER(Character Error Rate)で、文字単位での誤りの割合を算出し、その数値を100%から引くことで、精度を表しています。

要するに、このドキュメントはSecureMemoが提供するshirushiモデルが、実際のビジネス会議音声の認識において高い精度を達成していることを説明しています。

テキスト情報を抽出しようとすると、画像のグラフの情報が抽出されていないことが確認できます。

SecureMemoの特徴

リアルな会議音声による精度評価の結果、shirushiの精度は他社を大きく上回ります

shirushiは特にビジネス会議音声について大きな強みを発揮するモデルといえます

リアル会議音声による音声認識精度の評価結果

※SecureMemoCloudに投入された実際の会議音声による自社評価結果。評価は正解テキストと音声認識モデルの認識したテキストを比較し、文字単位で誤りがあった割合(CER)を算出、100%からCERを引いている

【解決手段】画像を入力できるLLMにスライドの説明をさせる

GPT-4V, Claude3(Haiku, Sonnet, Opus)といった高精度の画像入力が可能なLLMを使用するのが1つの解決策になります。

GPT-4Vは価格が高めなのでClaude3 HaikuやClaude3 Opusであれば比較的安価に使用することができます。
入力トークン数に比例した料金は以下のとおりです。画像のサイズ等の詳細の価格体系はGPTとClaudeで異なるのでその点には注意します。

  • GPT-4V:$10 /1M token
  • Claude3 Haiku: $0.25/ 1M token
  • Claude3 Sonnet: $3/ 1M token
  • Claude3 Opus: $15/ 1M token

shirushiの精度を比較したグラフのスライドを説明させた内容をみてみましょう。
Claude3の最も安価なモデルHaikuでもshirushiと他社のサービスの精度の概要を解釈できており、Claude3 Sonnet,Claude3 Opus, GPT-4Vでは小数点単位の正確な数値の読み取りができております。

# 全てのモデルに共通するプロンプト(指示文)
この画像を説明してください。

# GPT-4Vの出力
この画像は、異なる項目における能力や成績を示す棒グラフです。左側の青い棒は「shirushi」と表示されており、その値は77.3%です。右側には灰色の棒が四つ並んでおり、それぞれの棒は「A社」「B社」「C社」「D社」とラベルされており、それぞれの値は55.1%、60.6%、60.6%、60.3%となっています。グラフの上部には「リアルな会議資料による操作評価の基盤、shirushiの機能は他社を大きく上回ります。shirushiは特にシステム会議資料について大きな強みを発揮するモデルといえます。」という説明文が記載されています。また、画面下部には「Nishika, Inc」のロゴがあります。

# Claude Haikuの出力
この画像は、リアルな会議音声による精度評価の結果を示しています。 shirushiの精度が他社と比べて大きく上回っていることが分かります。 特にリアルな会議音声における精度が77.3%と非常に高いことが示されています。 一方で、A社、B社、C社、D社の精度はおおむね60%前後となっており、shirushiが際立って高い精度を示している様子が見て取れます。 この結果は、shirushiが他社に比べてリアルな会議音声への対応力が優れていることを示唆しています。

# Claude Sonnetの出力
この画像は、リアルな会議音声における構成要素の評価結果を示すグラフです。縦棒グラフの形式で、shirushiと他の4つの企業やモデル(A社、B社、C社、D社)の評価値が比較されています。

shirushiの評価値は77.3%と最も高く、他社を大きく上回っています。一方、A社は55.1%、残りの3社は60%台とほぼ同じ水準にあります。

グラフの題名からは、リアルな会議音声における構造解析能力が評価されていることがわかります。shirushiの高い評価値は、会議音声の解析において卓越した性能を有していることを示唆しています。

# Claude Opusの出力
この画像は、シルシ(shirushi)の精度評価に関するグラフです。5つのモデル(shirushi、A社、B社、C社、D社)の精度を比較しています。

グラフによると、shirushiの精度が77.3%で最も高く、他社モデルを大きく上回っています。A社が55.1%、B社からD社までは60.6%から60.3%の範囲に収まっており、shirushiとの差が顕著です。

画像の説明文によれば、リアルな会議音声による精度評価の結果を示しているとのことです。shirushiは特にビジネス会議音声について、大きな強みを発揮するモデルといえそうです。

スライド内の図形・テキストボックスの位置関係を理解する必要がある例

PowerPoint内の画像は当然のことながら、テキストの情報であったとしても、図形内のテキストを理解する上でもただGPTを使うのではなく、画像入力できるLLMを工夫して使用することが重要です。

以下は弊社のコンペティション型AI開発の流れを説明するスライドになります。
<図形・テキストボックスを含むスライドの例>

パワポ職人さんのスライドもそうですが、図形・テキストボックスや画像などを含むスライドの内容を理解するためには画像入力可能なLLMの活用が重要になります。

画像入力可能なLLMを使用しない場合

コンペティション型AI開発の流れを尋ねる質問をして、画像入力可能なLLMを使用しない場合の回答結果をみてみます。

# プロンプト(指示文)
コンペティション型のAI開発の流れを教えてください

# 画像入力可能なLLMを使用しない場合のGPT-4V出力
このドキュメントは、AI開発における異なるアプローチについて説明しています。主に、コンペティション型AI開発に焦点を当て、それを支援するサービスやプロセスについて述べています。

1. **コンペティション型AI開発** - 開発速度と精度を両立させる目的で、Nishikaによる開発が提案されています。また、高い精度を追求する場合は、データ分析コンペによる開発が推奨されます。
2. **AI活用診断** - 企業がAIをどのように活用できるかについての指針を提案することです。これには、国内外のAI活用事例の紹介、過去のAI開発経験に基づく効果と実現可能性の整理、実データ分析結果に基づく必要なリソースとステップの提示が含まれます。
3. **Nishikaによる開発** - コンペで高成績を収めたモデルや手法を活用し、高速かつ高水準の精度を実現するAI開発を行います。
4. **データ分析コンペによる開発** - 国内最高水準の精度を実現するAI開発を目指し、Human-in-the-Loop(人間のフィードバックがAI運用フローに含まれる)要件定義を行います。
全体を通して、ドキュメントはAI開発の異なる段階やアプローチを説明し、各ステージで企業が取るべきアクションを提示しています。コンペティション型AI開発を通じて、開発速度と精度のバランスを取りつつ、特定の目標(高精度など)を追求する方法が提案されています。

以下の3ステップの流れを解釈することができず、コンペティション型AI開発というタイトルの文字列が先頭のステップとして認識されてしまっていて大まかな流れを抑えられていません。

  • AI活用診断
  • PoC(Nishikaによる開発 または データ分析コンペによる開発)
  • プロトタイプ・本開発

画像入力可能なモデルをしていないためにテキスト情報を抽出した際に以下のように四角の図形の位置関係の情報が落ちた状態でGPT-4 Turboに入力されているため、うまく解釈できていません。

コンペティション型AI開発
開発速度と精度の両立が目的であればNishikaによる開発、
高い精度を追い求めるのが目的であればデータ分析コンペによる開発をご提案
AI活用診断
PoC
プロトタイプ・本開発
Nishikaによる開発
データ分析コンペによる開発
国内外AI活用事例に照らした、貴社にて採用し得るAI活用指針提案
過去のAI開発経験に基づく、AIによる課題解決の効果・実現可能性整理
実データ分析結果に基づく、課題解決に向けて必要なリソース、踏むべきステップ提示
Nishikaによる開発
コンペで高い成績を収めた実績のあるモデル・手法を活用した高速かつ高水準の精度を担保したAI開発
データ分析コンペによる開発
国内最高水準の精度を実現するAI開発
Human-in-the-Loop(人間のフィードバックがAI運用フローに含まれる)を実現する要件定義

画像入力可能なLLMを使用する場合

画像入力可能なLLMに問い合わせた結果を確認します。

# 全てのモデルに共通するプロンプト(指示文)
コンペティション型のAI開発の流れを教えてください

# GPT-4Vの出力
このスライドは、コンペティション型AI開発の流れを示しています。主に3つの段階に分かれていることが見て取れます。
1. **AI活用開例**
   - 初めに、企業が既存のAI技術を評価し、自社にとって最適なAI活用場面を選定します。
   - 次に、組織のAI活用実績等に基づき、AIによる競争利点の対外・実現可能性検理を行います。
   - 最終的に、データ分析結果に基づいて、課題解決へ向けた適切なリソースの組み合わせやプランを提示します。
2. **PoC (Proof of Concept)**
   - 「Nishikaによる開発」と「データ分析への応用」がメインの内容として挙げられており、これは実際のデータや状況下でNishikaが提供するソリューションの概念実証を行い、実用化の前段階として言及されています。
3. **プロトタイプ・本開発**
   - Human-in-the-Loop(人間のフィードバックがAI開発プロセスに含まれる)を実現することが重要なポイントとして挙げられ、これによりAIソリューションが実際の業務プロセスにどのように組み込まれるかを検証し、最終的な製品またはサービスの形へと進展します。
この流れは、AI技術の理解から始まり、試行錯誤を経て実用段階へと移るプロセスを示しており、実際に導入する際の実用的なステップが考慮されています。また、各段階での詳細なフィードバックやデータ分析が重要とされており、リアルタイムでの調整や改善が可能です。

# Claude Haikuの出力
このイメージは、Nishikaによる AI 開発の概要を示しています。主な内容は以下のとおりです:
- AI 活用診断: 国内外の AI 活用事例を踏まえて、企業の AI 活用指針を提案します。
- Nishikaによる開発: Nishikaが高い精度と実現性を持つ AI 開発を行います。
- データ分析コンペによる開発: 国内外の高水準のデータを活用し、AI 開発を行います。 
- プロトタイプ・本開発: 人間のフィードバックをAI運用フローに組み込むことで、要件定義を実現します。
つまり、企業の AI 活用状況を診断した上で、Nishikaが高精度の AI を開発・提供し、データ分析コンペを通じてAI開発プロセスを高度化していくという流れが示されています。

# Claude Sonnetの出力
この画像は、コンベンション型AI開発のプロセスを示しています。大きく3つの部分に分かれています。
1. AI活用診断:
企業内のAI活用事例に照らし合わせながら、AI活用領域を特定する作業です。既存のAI開発経験に基づき、AI化に向けた課題解決の可能性を評価します。実データ分析結果を活用して、課題解決にどのようなリソースが必要かを可視化します。
2. Nishikaによる開発:
PoC(Proof of Concept)として、Nishikaによるデータ分析コンペの実施と、そのモデル・手法を活用した高速プロトタイピングが行われます。国内最高水準の精度を実現するAI開発が目指されています。
3. プロトタイプ・本開発:
Human-in-the-Loop(人間のフィードバックがAI運用プロセスに組み込まれる)を実現する実作業定義フェーズです。
このように、Nishikaのコンベンション型AI開発は、企業ニーズに基づく課題発見から、高精度AI開発、さらに実運用に向けた準備までの一貫したプロセスを提供しています。

# Claude Opusの出力
コンペティション型AI開発の流れは以下の3つのステップからなります。
1. AI活用診断
- 国内外AI活用事例に照らした、貴社にて採用し得るAI活用指針提案
- 過去のAI開発経験に基づき、AIによる課題解決の効果・実現可能性検討
- 実データ分析結果に基づく、課題解決に向けての要なりソース、踏むべきステップ提示
2. PoC (Proof of Concept)
- Nishikaによる開発: Human-in-the-loop (人間のフィードバックがAI運用フローに含まれる)を実現する要件定義
- データ分析コンペによる開発: 国内最高水準の精度を実現するAI開発
3. プロトタイプ・本開発
- 実運用に適したAIシステムのプロトタイプ開発から本格的な運用開発まで
以上の3段階のステップを踏むことで、コンペティションの要素を取り入れつつ、実用的なAIシステムの開発が可能になります。データ分析コンペによる精度の高いモデル開発と、Human-in-the-loopによる実運用に適したシステム開発のバランスが重要だと思われます。

Claude3 Haiku, Claude3 Sonnetでは「PoC」の項目に「Nishikaによる開発」と「コンペ型の開発」の2つが含まれていていずれかを選択することまでは理解ができていませんが、大まかな流れは解釈することができており、Claude3 OpusとGPT-4Vは、その点も含めて解釈することができています。

まとめ

グラフの画像や図形・テキストボックスを含むスライドを例に、画像入力可能なLLMの活用をすることでテキスト抽出手法と比べて精度を改善できることを紹介しました。
既存のクラウドサービスやパッケージ製品を使用して、RAGの仕組みを作成して社内用のGPTを作成しようとした際に執筆時点(24/5/9)においては画像や図形・テキストボックスを含むドキュメントの解釈は難しいことが多いです。

以前の記事「実務で後一歩使えない」を解決するLLM・RAG ~PDFの表を崩さず理解する~で表を解釈するためにOCRを使用したり、画像や図形・テキストボックスの位置関係理解には画像入力可能なLLMを使用し内容に合わせて実装することが重要です。

Nishikaについて

Nishikaは2019年に創業、「テクノロジーですべての人が誇りを持てる社会の実現」をビジョンに掲げ、「テクノロジーを、普段テクノロジーからは縁の遠い人にとっても当たり前の存在としていき、皆の仕事の付加価値・業務効率を向上させることに貢献したい」と考え、活動しています。
AIプロダクト事業/AIコンサルティング・開発事業/AI人材事業を手掛け、AIコンサルティング・開発事業では「生成AIを使うと何が嬉しいのか、通り一遍ではない使い方を知りたい」という段階のお客様から、伴走してご支援するアプローチを強みとしています。

https://info.nishika.com/

We're hiring!

Nishikaテックチームでは、「テクノロジーを、普段テクノロジーからは縁の遠い人にとっても当たり前の存在としていく」を目指し、音声AIプロダクトの開発・生成AIを活用した課題解決ソリューションの構築を行なっています。
興味をお持ちいただけた方は、以下リンクからご応募お待ちしています。インターンも募集しております!
https://nishika0507.notion.site/Careers-at-Nishika-25c33efd5f5f43fe99018c8a16ea4444

Nishika Tech Blog

Discussion