🔥

Azure Blob storageのコンテナーに格納されているPDFをDocument intelligenceでOCRする方法

takekawa tomoki

2024/08/09に公開

Azure

Microsoft

blobstorage

Document Intelligence

tech

やること

Azure blob storageにPDFのドキュメントを保管しています。
そのドキュメントをローカルにダウンロードせずに、Azure Document intelligenceでOCRをする方法を紹介します。

ライブラリーのインストール

pip install azure-storage-blob azure-ai-formrecognizer

コード

main.py

import os  
from azure.storage.blob import BlobServiceClient  
from azure.ai.formrecognizer import DocumentAnalysisClient  
from azure.core.credentials import AzureKeyCredential  
  
# Azure Blob Storageの設定  
blob_service_client = BlobServiceClient.from_connection_string("接続文字列")  
container_name = "コンテナ名"  
blob_name = "ファイル名.pdf"  
  
# Blobストリームの取得  
blob_client = blob_service_client.get_blob_client(container=container_name, blob=blob_name)  
stream = blob_client.download_blob().readall()  
  
# Azure Document Intelligenceの設定  
endpoint = "endpoint"  
key = "Key"  
  
document_analysis_client = DocumentAnalysisClient(endpoint, AzureKeyCredential(key))  
  
# OCRの実行  
poller = document_analysis_client.begin_analyze_document("prebuilt-read", stream)  
result = poller.result()  
  
# 結果の表示  
for page in result.pages:  
    for line in page.lines:  
        print(line.content)

ヘッドウォータース

株式会社ヘッドウォータースのテックブログです。 AIエージェント、生成AI、LLM、Azureのサービスや資格、IoT、XR系などData&AIとApp modernizeに関して幅広く投稿します！

やること

ライブラリーのインストール

コード

Discussion