🫥
UpstageLayoutAnalysisLoaderでRAGのDocument Loaderに!
UpstageLayoutAnalysisLoader
UpstageLayoutAnalysisLoader
はUpstageAIが提供する文書分析ツールで、LangChainフレームワークと統合されて使用できる文書ローダーです。
主な特徴: - PDF、画像など様々な形式の文書でレイアウト分析を行う - 文書の構造的要素(タイトル、段落、表、画像など)を自動的に認識·抽出 - OCR機能をサポート(選択的)
UpstageLayoutAnalysisLoaderは、単純なテキスト抽出を超えて文書の構造を理解し、要素間の関係を把握してより正確な文書分析を可能にします。
設置
langchain-upstage
パッケージをインストールしてから使用します。
pip install -U langchain-upstage
API Key設定
.env
ファイルにUPSTAGE_API_KEY
キーを設定します。
参考
環境設定
# APIKEYを環境変数として管理するための設定ファイル
from dotenv import load_dotenv
# API KEY 情報ロード
load_dotenv()
# LangSmith追跡を設定します。 https://smith.langchain.com
# !pip install langchain-teddynote
from langchain_teddynote import logging
# プロジェクト名を入力します。
logging.langsmith("UpstageLayoutAnalysisLoader-test")
UpstageLayoutAnalysisLoader
主要パラメータ
-
file_path
:分析する文書経路 -
output_type
:出力形式 [(基本値)'html'、'text'] -
split
:文書分割方式['none'、'element'、'page'] -
use_ocr
=True: OCR 使用 -
exclude=["header"、"footer"]
:ヘッダー、フッターを除く
from langchain_upstage import UpstageLayoutAnalysisLoader
# ファイル経路
file_path = "./data/Test_pdf_file.pdf"
# ドキュメントローダー設定
loader = UpstageLayoutAnalysisLoader(
file_path、
output_type="text"、
split="page"、
use_ocr=True、
exclude=["header", "footer"]、
)
# ドキュメント·ロード
docs = loader.load()
# 結果出力
for doc in docs[:3]:
print(doc)
Discussion