🎃
【Azure】- Azure Document Intelligenceについて
執筆日
2024/12/23
やること
最近、Azure Document Intelligence に触れる機会が多くなり、少しずつナレッジも蓄積されてきました。そこで、このタイミングで改めて Azure Document Intelligence についてまとめてみようと思います。
今回は社内の勉強会で発表する内容として、初心者向けに書いています。
Azure Document intelligenceとは?
Microsoft Azureが提供するAIサービスのひとつで、文書やフォームから情報を自動的に抽出できるツールです。簡単に言うと、「紙やPDF、画像のデータをデジタルな情報に変換してくれる便利なサービス」です。
具体的にできることは?
- 文書からテキストを抽出
紙の請求書や領収書のスキャン画像、PDF、手書きのメモなどからテキストを読み取ることができます。 - 構造化データの抽出
文書に書かれているデータを、自動で「ラベル付きの情報(名前、日付、金額など)」として取得します。たとえば、請求書から「請求先」「金額」「日付」などの特定の情報を抜き出せます。 - 多言語対応
日本語を含む多言語に対応しており、異なる言語の文書も処理できます。 - 手書き文字の認識
手書きの文字も読み取ることができ、紙の書類やアンケートのデジタル化に役立ちます。
Azure Document intelligeceにあるモデルについて
Azure Document intelligenceには以下の3つのモデルが存在します。
- Document Analytics
- 概要: 文書や画像から文字をそのまま抽出する基本モデル。
- 特徴: 全てのテキスト+位置情報を取得。手書き文字や多言語対応。
- 用途: テキストデータ化、スキャン文書のデジタル化。
- 事前構築済みモデル
- 概要: 特定の文書(請求書、領収書、IDカードなど)向けに事前学習されたモデル。
- 特徴: 必要なデータ(例: 金額、日付)を自動抽出。フォーマットが少し違っても対応。
- 用途: 経理業務の自動化、契約書や名刺の情報抽出。
- カスタムモデル
- 概要: 自社独自の文書フォーマットに対応するためにトレーニング可能なモデル。
- 特徴: 特定のデータを抽出するようにカスタマイズ可能。
- 用途: 特殊な書類や非定型フォーマットへの対応。
この3つのモデルを使い分けることで、さまざまな文書処理が効率化できます!
Document Analyticsについて
「Document Analyticsモデルには、OCR/Read、Layout、General Document の3つがあります。
- OCR/Read
- 概要: 文書や画像からテキストをそのまま抽出する基本機能。
- 特徴: 文書内の全テキスト+位置情報(どこに書かれているか)を取得。手書き文字や多言語対応。
- 用途: 文書全体をテキストデータ化、スキャン文書や手書きのメモのデジタル化。
- Layout
- 概要: 文書の構造やレイアウトを解析するモデル。
- 特徴: 文書内のテキストだけでなく、段落、表、リスト、見出しなどのレイアウト情報を抽出。
- 用途: 文書の構造を把握して、表のデータ抽出や文書の内容分類に活用。例: 技術文書やレポートの解析。
- General Document
- 概要: 一般的な文書から必要な情報を抽出できる汎用モデル。
- 特徴: 文書全体を理解し、テキストや表、キーと値のペア(例: 項目名と値)を抽出可能。非定型文書にも対応。
- 用途: 特定フォーマットに依存しない文書処理。例: 記入フォームや業務レポートからのデータ抽出。
事前構築済みモデルについて
事前構築済みモデルには、20を超えるモデルが準備されてます。
先日v4.0が発表され、フィールド(取得したい項目)を追加させることもできるようになりました。
v4.0のアップデートについては別途記事にしようかなと。
カスタムモデルについて
カスタムモデルには、カスタム抽出モデル、カスタム分類モデルの2つがあります。
- カスタム抽出モデル
- 概要: 文書から特定のデータ(例: 名前、日付、注文番号など)を抽出するためにトレーニングするモデル。
-
特徴:
- 自社独自の文書フォーマットや非定型フォーマットに対応可能。
- 必要なフィールド(データ項目)を指定して抽出できる。
-
用途:
- カスタマイズされた請求書や発注書から、金額や顧客情報を抽出。
- 特定の契約書から契約条件や当事者情報をピンポイントで取得。
- カスタム分類モデル
- 概要: 文書をカテゴリごとに分類するためにトレーニングするモデル。
-
特徴:
- 文書の内容や特徴に基づいて、複数のカテゴリ(例: 請求書、領収書、契約書など)に分類可能。
-
用途:
- 複数種類の書類(例: 請求書と領収書)を自動で分類して処理を振り分ける。
料金について
2024/12/21時点では以下です。
モデル | 料金 | 単位 |
---|---|---|
Read | $1.50 | 1,000 ページあたり(0-1百万ページ) |
$0.60 | 1,000 ページあたり(1百万ページ以上) | |
事前構築済みモデル | $10 | 1,000 ページあたり |
カスタム分類モデル | $3 | 1,000 ページあたり |
カスタム抽出モデル | $30 | 1,000 ページあたり |
カスタム生成抽出 | $30 | 1,000 ページあたり |
トレーニング | $3 | トレーニング1時間あたり |
Discussion