🔥
Azure Blob storageのコンテナーに格納されているPDFをDocument intelligenceでOCRする方法
やること
Azure blob storageにPDFのドキュメントを保管しています。
そのドキュメントをローカルにダウンロードせずに、Azure Document intelligenceでOCRをする方法を紹介します。
ライブラリーのインストール
pip install azure-storage-blob azure-ai-formrecognizer
コード
main.py
import os
from azure.storage.blob import BlobServiceClient
from azure.ai.formrecognizer import DocumentAnalysisClient
from azure.core.credentials import AzureKeyCredential
# Azure Blob Storageの設定
blob_service_client = BlobServiceClient.from_connection_string("接続文字列")
container_name = "コンテナ名"
blob_name = "ファイル名.pdf"
# Blobストリームの取得
blob_client = blob_service_client.get_blob_client(container=container_name, blob=blob_name)
stream = blob_client.download_blob().readall()
# Azure Document Intelligenceの設定
endpoint = "endpoint"
key = "Key"
document_analysis_client = DocumentAnalysisClient(endpoint, AzureKeyCredential(key))
# OCRの実行
poller = document_analysis_client.begin_analyze_document("prebuilt-read", stream)
result = poller.result()
# 結果の表示
for page in result.pages:
for line in page.lines:
print(line.content)
Discussion