LlamaCloudの「agentic chart parsing」を試す

これちょっと気になるので試したい
ドキュメントOCRの未解決の問題は、チャート理解であり、ほとんどのLLMは数値への直接変換が得意ではありません。
私たちは、実験的な「エージェント型チャート解析」モデル/アルゴリズム📈🧪を作成しました。これにより、チャート内の各値の正確な値を可能な限り理解できます - 折れ線グラフの輪郭をたどって正確な値を特定します。
これはRAGとエージェント型自動化の両方に役立ちます：下流のLLM生成器にクリーンな値を渡し、これらの値をレビュー/修正する人間の時間を減らします。
LlamaCloudでチェックしてみてください！
https://x.com/jerryjliu0/status/1985182082755424586

kun432

LlamaCloud。以前少し試していたけど久々。
https://www.llamaindex.ai/llamacloud

 主なサービスParse: ドキュメントを解析してLLMで使う。VLMでQA的なサービスかな？
Extract: ドキュメントからスキーマに応じて情報抽出。OCR的なサービスかな？
Index: マネージドなベクトルDBだと思う。
Classify:ドキュメントをカテゴリに分類。ベータらしい。

 料金https://www.llamaindex.ai/pricing


プラン名
月額料金
含まれるクレジット
追加クレジット (Pay-as-you-go)
ユーザー数
外部データソース
サポート
主な特徴


Free（無料）
$0/月
10,000 クレジット
0 クレジット
1人
ファイルアップロードのみ
基本サポート
小規模個人利用向け

Starter
$50/月
50,000 クレジット
最大 500,000 クレジット（$500）
5人
5件
基本サポート
小チーム向け。外部データ連携可

Pro
$500/月
500,000 クレジット
最大 5,000,000 クレジット（$5,000）
10人
25件
Slackサポート
中規模チーム・高度な統合向け

Enterprise
カスタム
カスタム上限
カスタム
無制限
無制限
専用サポート
VPC/SaaS 対応、エンタープライズ機能あり

補足:
クレジット換算: 1,000クレジット = 約1ドル
各プランで「Parse」「Index」「Extract」などの操作ごとにクレジットが消費される。
とりあえず無料プランでも10000クレジット付与されるのでお試しに使うには良いと思う。

プラン名	月額料金	含まれるクレジット	追加クレジット (Pay-as-you-go)	ユーザー数	外部データソース	サポート	主な特徴
Free（無料）	$0/月	10,000 クレジット	0 クレジット	1人	ファイルアップロードのみ	基本サポート	小規模個人利用向け
Starter	$50/月	50,000 クレジット	最大 500,000 クレジット（$500）	5人	5件	基本サポート	小チーム向け。外部データ連携可
Pro	$500/月	500,000 クレジット	最大 5,000,000 クレジット（$5,000）	10人	25件	Slackサポート	中規模チーム・高度な統合向け
Enterprise	カスタム	カスタム上限	カスタム	無制限	無制限	専用サポート	VPC/SaaS 対応、エンタープライズ機能あり

kun432

良さげなサンプルを探していたのだが、農林水産省が出している「競馬の概況」というPDFをベースにグラフを作成した。
このPDFは、
年間の売得金額。馬券の販売金から、出走取消・除外などの返還金を引いたもの、つまり馬券の売上と言える。
競馬場の年間入場者数。
の推移を、中央競馬・地方競馬ごとにそれぞれまとめたもの。（競馬場は中央は全10場、地方は全17場）
https://www.maff.go.jp/j/chikusan/keiba/lin/index.html
で、これの中央競馬に関するグラフのベースとなっているデータはたぶんここの「売得金額・入場人員」というPDF。こちらは昭和29年以降の数値とグラフとなっている。
https://jra.jp/company/about/outline/growth/
このデータを元にGoogleスプレッドシートでグラフを書いてみた。こんな感じ。
これをPDF化（つまりグラフは画像）して、LlamaCloudで試してみようと思う。
!農林水産省のPDFをそのまま使っても良かったのだけど、
グラフ上に注釈なども含まれたり、地方競馬のデータもある。こちらのほうが現実世界には近いのだが、純粋なグラフだけでどこまでできるかを確認したい。
JRAのデータには元の数値がある、つまり正解データとなるため、抽出結果と比較がしやすい。
ということで、ワンクッション置いた。