Open2025/02/17にコメント追加1

pythonでPDFファイルの処理ができるライブラリ

pythonでPDFを処理する際にする代表的なライブラリ

PyPDFとpdfplumber二つのライブラリでどちらの方がテキスト抽出したときデータとして扱いやすいか検証してみる

# PyPDFを使用した場合
import pypdf

# PDFファイルを読み込む
pdf_path = "sample.pdf"
reader = pypdf.PdfReader(pdf_path)

# PDFからテキストを抽出して表示
page = reader.pages[0]  # 最初のページだけ読み込んでみる
text = page.extract_text()
print(text) # 抽出結果を確認してみる

# pdfplumberを使用した場合
import pdfplumber

# PDFファイルを読み込む
pdf_path = "sample.pdf"
with pdfplumber.open(pdf_path) as pdf:
    page = pdf.pages[0] # 最初のページを読み込む
    text = page.extract_text()
    print(text) # 抽出結果を確認してみる

結論を言うと圧倒的にpdfplumberの方がテキスト抽出した時データとして扱いやすい
ただ、どのライブラリを採用するかは、実際に試してみて検証してみるのが一番良い