Open3

LlamaCloudの 「agentic chart parsing」 を試す

kun432kun432

これちょっと気になるので試したい

ドキュメントOCRの未解決の問題は、チャート理解であり、ほとんどのLLMは数値への直接変換が得意ではありません。

私たちは、実験的な「エージェント型チャート解析」モデル/アルゴリズム📈🧪を作成しました。これにより、チャート内の各値の正確な値を可能な限り理解できます - 折れ線グラフの輪郭をたどって正確な値を特定します。

これはRAGとエージェント型自動化の両方に役立ちます:下流のLLM生成器にクリーンな値を渡し、これらの値をレビュー/修正する人間の時間を減らします。

LlamaCloudでチェックしてみてください!

https://x.com/jerryjliu0/status/1985182082755424586

kun432kun432

LlamaCloud。以前少し試していたけど久々。

https://www.llamaindex.ai/llamacloud

主なサービス

  • Parse: ドキュメントを解析してLLMで使う。VLMでQA的なサービスかな?
  • Extract: ドキュメントからスキーマに応じて情報抽出。OCR的なサービスかな?
  • Index: マネージドなベクトルDBだと思う。
  • Classify:ドキュメントをカテゴリに分類。ベータらしい。

料金

https://www.llamaindex.ai/pricing

プラン名 月額料金 含まれるクレジット 追加クレジット (Pay-as-you-go) ユーザー数 外部データソース サポート 主な特徴
Free(無料) $0/月 10,000 クレジット 0 クレジット 1人 ファイルアップロードのみ 基本サポート 小規模個人利用向け
Starter $50/月 50,000 クレジット 最大 500,000 クレジット($500) 5人 5件 基本サポート 小チーム向け。外部データ連携可
Pro $500/月 500,000 クレジット 最大 5,000,000 クレジット($5,000) 10人 25件 Slackサポート 中規模チーム・高度な統合向け
Enterprise カスタム カスタム上限 カスタム 無制限 無制限 専用サポート VPC/SaaS 対応、エンタープライズ機能あり

補足:

  • クレジット換算: 1,000クレジット = 約1ドル
  • 各プランで「Parse」「Index」「Extract」などの操作ごとにクレジットが消費される。

とりあえず無料プランでも10000クレジット付与されるのでお試しに使うには良いと思う。

kun432kun432

良さげなサンプルを探していたのだが、農林水産省が出している「競馬の概況」というPDFをベースにグラフを作成した。

このPDFは、

  • 年間の売得金額。馬券の販売金から、出走取消・除外などの返還金を引いたもの、つまり馬券の売上と言える。
  • 競馬場の年間入場者数。

の推移を、中央競馬・地方競馬ごとにそれぞれまとめたもの。(競馬場は中央は全10場、地方は全17場)

https://www.maff.go.jp/j/chikusan/keiba/lin/index.html

で、これの中央競馬に関するグラフのベースとなっているデータはたぶんここの「売得金額・入場人員」というPDF。こちらは昭和29年以降の数値とグラフとなっている。

https://jra.jp/company/about/outline/growth/

このデータを元にGoogleスプレッドシートでグラフを書いてみた。こんな感じ。

これをPDF化(つまりグラフは画像)して、LlamaCloudで試してみようと思う。