👋

巨大コンテキスト長を持つモデルの誕生によってドキュメントのchunkingは時代遅れとなるか?

2023/11/17に公開

殆どが以下のツイートを含むツリーの内容の翻訳となります。この会社のツールの宣伝ツイートである点には留意しておきたい。
https://twitter.com/UnstructuredIO/status/1724822009568481549

前提

128kのコンテキスト長を持つGPT-4 Turboや100kのコンテキスト長を持つAnthropicのClaudeなど、巨大なコンテキスト長を持つモデルが増えてきている。

コンテキスト容量の限界

誰が1つのドキュメント、あるいはドキュメントの集合を見つけて、それを言語モデルに送り込みたいと思うだろうか?エンタープライズ・アプリケーションの場合、当面は、潜在的に関連性のあるデータをすべて前処理するのが唯一の扱いやすいアプローチである。

エンタープライズアプリケーションとは

以下bingによる出力

エンタープライズアプリケーション(EA)は、主に企業や政府などの組織で運用される大規模なソフトウェアシステムプラットフォームです。これらのシステムは、特定の業務操作を調整するためのビジネスソフトウェアシステムで、各EAにはタスクを実行するための独自のツールと機能のセットが含まれています。

EAは、企業が自動化を通じて人的介入を最小限に抑え、生産性を高め、運用効率を最適化することを可能にします。これにより、企業は従来の管理手法を凌駕する心配や制約なしに拡張できます。

エンタープライズアプリケーションの例としては、会計・請求システム、顧客関係管理(CRM)、POSソフトウェア、サプライチェーン管理(SCM)、エンタープライズリソースプランニング(ERP)、ビジネスインテリジェンスシステムなどがあります。これらのシステムは、企業の業務の様々なフェーズを担当し、ワークフローの連携を実現し、大規模プロジェクトの複雑さを軽減します。これにより、企業は自動化を通じて人的介入を最小限に抑え、生産性を高め、運用効率を最適化することができます。これにより、企業は従来の管理手法を凌駕する心配や制約なしに拡張できます。

費用対効果

モデルに入力する文字数が多ければ多いほど、API利用料金は高くなる。では、質問に答えるために必要なのは文書の1ページの内容だけなのに、なぜ300ページの文書全体を渡すのだろうか?

LLMの能力の問題

LLMは今でも膨大な文脈の中では重要な情報を見逃すことが多い。
更に、GPT-4 Turboはそのパワーにもかかわらず、大きなドキュメントの処理に時間がかかることがある。
また、GPT-4 Turboは確かに画像を分析することができるが、最初にPDFを前処理し、ページに画像があることをGPTに伝えなければ、それは単に無視されることが多い。

以下Unstructuredの宣伝

Unstructuredがあれば、このような課題を心配する必要はありません。私たちのライブラリーを使えば、#前処理、#チャンキング、#ベクトル化が簡単になり、最もコスト効率がよく、パフォーマンスの高いLLM対応ワークフローを構築できます。

Discussion