Open1
pythonでPDFファイルの処理ができるライブラリ

pythonでPDFを処理する際にする代表的なライブラリ
PyPDFとpdfplumber二つのライブラリでどちらの方がテキスト抽出したときデータとして扱いやすいか検証してみる
# PyPDFを使用した場合
import pypdf
# PDFファイルを読み込む
pdf_path = "sample.pdf"
reader = pypdf.PdfReader(pdf_path)
# PDFからテキストを抽出して表示
page = reader.pages[0] # 最初のページだけ読み込んでみる
text = page.extract_text()
print(text) # 抽出結果を確認してみる
# pdfplumberを使用した場合
import pdfplumber
# PDFファイルを読み込む
pdf_path = "sample.pdf"
with pdfplumber.open(pdf_path) as pdf:
page = pdf.pages[0] # 最初のページを読み込む
text = page.extract_text()
print(text) # 抽出結果を確認してみる
結論を言うと圧倒的にpdfplumberの方がテキスト抽出した時データとして扱いやすい
ただ、どのライブラリを採用するかは、実際に試してみて検証してみるのが一番良い