Open7

文書管理・検索システム

kumewatakumewata

文書構造を維持しながらテキスト抽出している
図はどうするんだろう?

テキスト処理と書式設定

PDFとOfficeドキュメントプロセッサはどちらも、文書の構造を維持しながら、一貫性のある読みやすい形式でテキストを抽出することを目的としています。出力はマークダウンに似た形式で、以下のようになります。

適切な見出しと小見出し
段落構造の保持
リスト(箇条書きと番号付き)
テキストの書式設定(該当する場合は太字、斜体)
表(マークダウン表としてフォーマット)
コードブロック(識別されている場合)
この一貫したフォーマットにより、下流のコンポーネントは元のドキュメント形式に関係なく、統一されたテキスト表現で作業できるようになります。