文書管理・検索システム

notebook likeなOSSからLLM向けの文書管理、検索システムの作り方を調べる

pdfの処理はPyMuPDFを使用

https://deepwiki.com/lfnovo/open-notebook/4.3-document-processing#pdf-processing
https://github.com/lfnovo/open-notebook/blob/ff44e142/open_notebook/graphs/content_processing/pdf.py
https://pymupdf.readthedocs.io/ja/latest/

kumewata

検索システム

https://deepwiki.com/lfnovo/open-notebook/5.2-search-system
テキスト検索
ベクトル検索（セマンティック検索）
このOSSだとデータベースはSurrealDBを使っている

kumewata

文書構造を維持しながらテキスト抽出している
図はどうするんだろう？

テキスト処理と書式設定

PDFとOfficeドキュメントプロセッサはどちらも、文書の構造を維持しながら、一貫性のある読みやすい形式でテキストを抽出することを目的としています。出力はマークダウンに似た形式で、以下のようになります。

適切な見出しと小見出し
段落構造の保持
リスト（箇条書きと番号付き）
テキストの書式設定（該当する場合は太字、斜体）
表（マークダウン表としてフォーマット）
コードブロック（識別されている場合）
この一貫したフォーマットにより、下流のコンポーネントは元のドキュメント形式に関係なく、統一されたテキスト表現で作業できるようになります。

kumewata

LLM向けだとPyMuPDF4LLMがよい？

https://pymupdf.readthedocs.io/ja/latest/pymupdf4llm/index.html
PyMuPDF4LLM は、LLM や RAG 環境で必要な形式で PDF コンテンツを簡単に抽出できるようにすることを目的としています。 Markdown 形式での抽出や、 LlamaIndex ドキュメント出力もサポートしています。
https://qiita.com/jamie-lemon/items/455e14f83b4f5c81034b

kumewata

PyMuPDF4LLMのMCPサーバーがあった

kumewata

pdfから表を抽出するためのライブラリとかあるんだ