Open7
文書管理・検索システム

notebook likeなOSSからLLM向けの文書管理、検索システムの作り方を調べる

pdfの処理はPyMuPDFを使用

検索システム
- テキスト検索
- ベクトル検索(セマンティック検索)
このOSSだとデータベースはSurrealDBを使っている

文書構造を維持しながらテキスト抽出している
図はどうするんだろう?
テキスト処理と書式設定
PDFとOfficeドキュメントプロセッサはどちらも、文書の構造を維持しながら、一貫性のある読みやすい形式でテキストを抽出することを目的としています。出力はマークダウンに似た形式で、以下のようになります。
適切な見出しと小見出し
段落構造の保持
リスト(箇条書きと番号付き)
テキストの書式設定(該当する場合は太字、斜体)
表(マークダウン表としてフォーマット)
コードブロック(識別されている場合)
この一貫したフォーマットにより、下流のコンポーネントは元のドキュメント形式に関係なく、統一されたテキスト表現で作業できるようになります。

LLM向けだとPyMuPDF4LLMがよい?
PyMuPDF4LLM は、LLM や RAG 環境で必要な形式で PDF コンテンツを簡単に抽出できるようにすることを目的としています。 Markdown 形式での抽出や、 LlamaIndex ドキュメント出力もサポートしています。

PyMuPDF4LLMのMCPサーバーがあった

pdfから表を抽出するためのライブラリとかあるんだ