🫥

UpstageLayoutAnalysisLoaderでRAGのDocument Loaderに!

2024/09/24に公開

UpstageLayoutAnalysisLoader

UpstageLayoutAnalysisLoaderはUpstageAIが提供する文書分析ツールで、LangChainフレームワークと統合されて使用できる文書ローダーです。

主な特徴: - PDF、画像など様々な形式の文書でレイアウト分析を行う - 文書の構造的要素(タイトル、段落、表、画像など)を自動的に認識·抽出 - OCR機能をサポート(選択的)

UpstageLayoutAnalysisLoaderは、単純なテキスト抽出を超えて文書の構造を理解し、要素間の関係を把握してより正確な文書分析を可能にします。

設置

langchain-upstageパッケージをインストールしてから使用します。

pip install -U langchain-upstage

API Key設定

.env ファイルにUPSTAGE_API_KEY キーを設定します。

参考

Upstage開発者文書

環境設定

# APIKEYを環境変数として管理するための設定ファイル
from dotenv import load_dotenv

# API KEY 情報ロード
load_dotenv()
# LangSmith追跡を設定します。 https://smith.langchain.com
# !pip install langchain-teddynote
from langchain_teddynote import logging

# プロジェクト名を入力します。
logging.langsmith("UpstageLayoutAnalysisLoader-test")

UpstageLayoutAnalysisLoader

主要パラメータ

  • file_path:分析する文書経路
  • output_type:出力形式 [(基本値)'html'、'text']
  • split:文書分割方式['none'、'element'、'page']
  • use_ocr=True: OCR 使用
  • exclude=["header"、"footer"]:ヘッダー、フッターを除く
from langchain_upstage import UpstageLayoutAnalysisLoader

# ファイル経路
file_path = "./data/Test_pdf_file.pdf"

# ドキュメントローダー設定
loader = UpstageLayoutAnalysisLoader(
file_path、
output_type="text"、
split="page"、
use_ocr=True、
exclude=["header", "footer"]、
)

# ドキュメント·ロード
docs = loader.load()

# 結果出力
for doc in docs[:3]:
print(doc)
Fusic 技術ブログ

Discussion