Open1
PDFを読みやすいフォーマットに変換する「MinerU」を試す
ここで知った。
GitHubレポジトリ
MinerU
プロジェクト紹介
MinerUはPDFを機械可読な形式(例:markdown、JSON)に変換するツールで、任意の形式への抽出を容易にする。MinerUはInternLMの事前学習過程で誕生した。我々は科学文献における記号変換の問題解決に焦点を当て、大規模モデル時代の技術発展に貢献したいと考えている。MinerUは著名な商用製品と比較すると、まだ歴史が浅い。何か問題が発生した場合や、期待通りの結果が得られない場合は、問題を報告し、関連するPDFを添付してください。
主な機能
- ヘッダー、フッター、脚注、ページ番号などの要素を削除しながら、意味的な連続性を維持する
- 複数コラムの文書から、人間が読める順序でテキストを出力する
- タイトル、段落、リストなど、文書の元の構造を保持する
- 画像、画像キャプション、表、表キャプションを抽出する
- 文書内の数式を自動的に認識し、LaTeXに変換する
- 文書内の表を自動的に認識し、LaTeXに変換する
- 破損したPDFを自動的に検出し、OCRを有効にする
- CPUおよびGPU環境の両方をサポートする
- Windows、Linux、Macプラットフォームをサポートする