📌

Box AI for Hubs と Amazon Bedrock ナレッジベースの比較

に公開

はじめに

Amazon Bedrock のエージェントで使用するモデルの検証を実施しましたが、その際 Box AI for Hubs との比較も行っています。最終的な目的としては、基幹システムのチャットボットを構築することであり、RAGに Amazon Bedrock を採用するか、Box AI for Hubs を採用するかの検討のため比較を行っています。Amazon Bedrock のエージェントで使用するモデルについては、以下の記事を参照して頂き、この記事では Box AI for Hubs の性能についての解説を行いたいと思います。

https://zenn.dev/hirata_infosys/articles/7199be845e46dd

前提

  • Box AI Advanced(GPT-5)を使用。
  • Box AI for Hubs の詳細は、以下公式ページを参照下さい。この記事では、Amazon Bedrock の検証を行った際のデータがすでに格納されている前提です。
  • 評価時に使用するデータセットも、Amazon Bedrock の評価で使用したものと同じものを使用します。

https://support.box.com/hc/ja/articles/29347206309395-Box-AI-for-Hubs

検証結果

さっそくですが、検証結果です。比較のため、Amazon Bedrock(Claude)の結果も載せておきます。

モデル 応答速度 費用 精度(平均点)
Claude 3.7 Sonnet 20~30 秒 USD 40 9.1
Claude Haiku 4.5 10~12 秒 USD 7.5 8.9
Box AI for Hubs 15~18 秒 - 8.3

チャットというより、文章の要約を目的とするのであれば向いていると感じました(UIからもそのような印象を受けます)。質問に対する参照先がテキストである場合の回答精度はかなりよいです。ただし、広い範囲からデータを取得してきているため、出力を詳細に分析するとあまり関係のないデータからも回答が作成されていることがあります。また、ドキュメントに記述されている順に要約して欲しいのですが、同じドキュメントから取得したデータであっても、要約の順番が前後することがあります。

なぜこのようになるかは、あくまで推測ですがTemperatureやトップPなどの値が、かなりゆるく設定されているからではないかと考えられます。とりあえず広く情報を取得して、後はモデルにまかせるという力業感はありますが、汎用的にするためには仕方ないとも言えます。

応答速度については、かなり長い出力を作成するため、回答が最後まで出力されるのに時間を要しますが、回答が出力され始めるまでの時間は短いためストレスは感じません。また、費用に関しては既存の Box の契約プランに含まれるため、気にしなくてよいのもメリットです。※上限はあるため、公式の制限事項を確認して下さい。

評価

  1. Box AI for Hubs
    • テキストからの読み取り精度は高いが、取得対象のデータ、および出力が多い。
    • 画像やオブジェクトからの読み取り精度が低い。オブジェクト単体であれば読み取れているが、オブジェクト間の関連は読み取れていない。
    • 表からの読み取り精度が低い。単項目の読み取りは可能だが、決定表など複数項目から判定することができない。
    • 応答のリアルタイム性は高くUIの表示もきれい。ただし、参照元の情報の表示が微妙(※個人の感想です)。

Box AI for Hubs がどのようにベクトル化を行っているかは、ブラックボックスのため不明です。しかしながら、Amazon Bedrock(解析戦略)の結果と比較すると、Box AI for Hubs では事前に分析された結果がベクトル化されているわけではなさそうです。意図しない回答だった場合、同じ質問を Amazon Bedrock に対して行い、トレースステップのログをGPT-5に直接入力した結果と、Box AI for Hubs に問い合わせた結果では、精度に大きな違いがありました(前者は意図する結果が得られた)。これは、事前分析の有無が影響していると考えられます。

少なくとも、Amazon Bedrock の解析戦略相当の事前分析がないため、ドキュメントの図表からの読み取りに課題があります。シンプルな表であったり、単一のオブジェクトに記述されているテキストであれば、読み取りは可能ですが、複数のオブジェクトからなるフロー図から処理全体を説明するなどはできません。また、決定表のように複数の条件をもとに、回答を作成するなども難しいです。

よって、今回の目的である基幹システムのチャットボットのRAGとして使用するには厳しいと判断しました。データソースのドキュメントがテキストであれば問題ないと思われますが、今回は図表が多い(画面のキャプチャ中心)ドキュメントであるため、不適です。

追加の検証

今回の目的には不適でしたが、Box AI for Hubs は追加費用なしに、お手軽にRAGを構築できるというメリットがあります。ユーザ部門からの要望の度に Amazon Bedrock でRAGを構築するわけにもいかないため、Box AI for Hubs の向き不向きを把握した上で Box AI for Hubs に向いている要望であれば、ユーザ部門で構築してもらう方針としたいです。そのため、Box AI for Hubs が不向きなこと(できないライン)を追加で検証しました。

画像からの読み取り

GPT-5はマルチモーダルであるため、画像の読み取り精度について検証しました。追加のデータとして、以下のテキストを画像として用意し、RAGから読み取れるかの検証を行いました。以下の画像は手書きですが、通常のテキストを画像に変換したものや、画像にノイズを追加したものなどに対しても検証を行っています。
手書きのテキスト画像

以下、検証結果です。

  1. 画像ファイルとしてそのまま格納
ファイルの状態 結果
通常テキストを画像化 OK
通常テキストを画像化(低解像度) OK
通常テキストを画像化(背景に模様あり) OK
通常テキストを画像化(ノイズあり) OK
手書きテキストを画像化 OK
手書きテキストを画像化(低解像度) OK
手書きテキストを画像化(背景に模様あり) OK
手書きテキストを画像化(ノイズあり) OK

画像ファイルであれば、正確に文字の認識を行ってくれます。マルチモーダルとして期待する結果です。

  1. 画像を別のファイルに貼り付けて格納
ファイルの種類 結果
EXCELに貼り付け(上記パターン) NG
PDFに貼り付け(上記パターン) NG

画像を他のファイルに貼り付けた場合は、全く認識しなくなります。

よって、画像ファイルであればデータソースとして使用できますが、画像を貼り付けたドキュメントは Box AI for Hubs に不向きであることがわかります。

一応、これを回避する方法はあります。例えば、画像を含むPDFファイルをどうしても Box AI for Hubs のデータソースとして使用したい場合は、PDFファイルをまるごと画像に変換すればよいです。PDFファイルと画像に変換したファイルの両方を格納することで、回答の精度は向上します。

表の読み取り精度の検証

Amazon Bedrock との比較に使用したドキュメントは、WORDとPDFです。WORDの表からの読み取り精度が低かったため、EXCELについても検証しました。

結論のみ述べますが、EXCELで作成した表であれば、決定表に対する質問であっても正しく回答を出力できました。苦手とするセルの結合を行っていても問題ありませんでしたが、表のカラム数は揃えておく必要があるかと思われます。また、WORDの表と全く同じものをEXCELで作成したところ、質問に対する回答の精度が向上しました。なぜかは不明ですが、PDF化した場合も同様の結果が得られています。

よって、EXCELであれば表に書かれている内容の読み取りはできる(少なくともWORDよりよい結果を得られる)と考えます。ただし、あくまで表に書かれている内容の読み取りであって、セルの数式や依存関係をRAGから解析することはできないものと考えて下さい。GPT-5のチャットベースであれば、ある程度判定可能ですが、Box AI for Hubs ではこれらを解析することはできません。

まとめ

基幹システムのチャットボットを構築することを目的とし、RAGに Amazon Bedrock を採用するか、Box AI for Hubs を採用するかの検討を行った結果、解析戦略込みの Amazon Bedrock(エージェントのモデルに Claude Haiku 4.5)を使用することとしました。

しかしながら、Box AI for Hubs が全く使えないというわけではありません。むしろ、用途によっては Amazon Bedrock よりも優れたパフォーマンスを発揮するケースがあるかと思います。

今回の検証から、

  • Amazon Bedrock の解析戦略相当の事前分析を行った結果が、ベクトル化されているわけではない。
  • TemperatureやトップPなどのパラメタが、ゆるく設定されていると推測される。
  • テキストからの要約であれば、質問に対する回答の精度が高い。
  • 画像ファイルとして格納すれば、画像からの読み取りも可能。

という推測と検証結果が得られたため、「小規模なドメインでテキストが主なデータソースに対し、ある程度まとまった要約を出力したい」という要件であれば、Box AI for Hubs を使用するのに向いているのではないかと思います。

逆に、図表"を含む"データソースから、高度な検索(例として、図表そのもの意味を問うような質問)には向いていません。Box AI for Hubs しか手段がないという場合は、ドキュメント全体を画像に変換したり、別途分析した結果をテキストとして格納するなど、精度を向上させる方法を検討する必要があります。

平田機工株式会社 情報システム

Discussion