Open1

PDFを読みやすいフォーマットに変換する「MinerU」を試す

kun432kun432

ここで知った。

https://twitter.com/rohanpaul_ai/status/1841994644327920052

GitHubレポジトリ

https://github.com/opendatalab/MinerU

MinerU

プロジェクト紹介

MinerUはPDFを機械可読な形式(例:markdown、JSON)に変換するツールで、任意の形式への抽出を容易にする。MinerUはInternLMの事前学習過程で誕生した。我々は科学文献における記号変換の問題解決に焦点を当て、大規模モデル時代の技術発展に貢献したいと考えている。MinerUは著名な商用製品と比較すると、まだ歴史が浅い。何か問題が発生した場合や、期待通りの結果が得られない場合は、問題を報告し、関連するPDFを添付してください。

主な機能

  • ヘッダー、フッター、脚注、ページ番号などの要素を削除しながら、意味的な連続性を維持する
  • 複数コラムの文書から、人間が読める順序でテキストを出力する
  • タイトル、段落、リストなど、文書の元の構造を保持する
  • 画像、画像キャプション、表、表キャプションを抽出する
  • 文書内の数式を自動的に認識し、LaTeXに変換する
  • 文書内の表を自動的に認識し、LaTeXに変換する
  • 破損したPDFを自動的に検出し、OCRを有効にする
  • CPUおよびGPU環境の両方をサポートする
  • Windows、Linux、Macプラットフォームをサポートする