🐷

【Azure Document intelligence】カスタムモデルについて

2024/10/23に公開

執筆日

2024/10/23
※検証してわかったことは追記していきます。

やること

Azure Document intelligenceには、「事前構築済みモデル」「カスタムモデル」があります。
カスタムモデルって何ができるの?料金は?作成手順は?..わからないことがいっぱいあるので、この記事にまとめます。

カスタムモデルとは?

ユーザーが特定のドキュメント形式に合わせて独自のモデルをトレーニングし、カスタマイズした情報抽出を行うための機能です。

https://learn.microsoft.com/en-us/azure/ai-services/document-intelligence/train/custom-model?view=doc-intel-4.0.0

カスタムモデルの種類について

「カスタムテンプレートモデル(構造化フォーム用)」と「カスタムニューラルモデル(非構造化文書用)」の2種類があります。

カスタムテンプレートモデル

フィールドの位置が一貫している構造化されたドキュメントからのデータ抽出するのに長けている。

カスタムニューラルモデル

DeepLearningを利用している。構造化されていないドキュメントからデータを抽出するのに長けている。

特徴/モデル カスタムテンプレートモデル カスタムニューラルモデル
適用範囲 構造化されたドキュメント 非構造化・複雑なドキュメント
技術的アプローチ ルールベース ニューラルネットワーク
柔軟性と精度 固定レイアウトに迅速対応 高精度で柔軟
使用例 標準化されたフォーム、定型的な請求書 契約書、医療記録

料金

モデルトレーニング料金

カスタムテンプレートモデルのトレーニングは無料。
カスタムニューラルモデルのトレーニングは、最初の10時間のみ無料。トレーニング時間が10時間を超える場合、カスタム ニューラル モデルのトレーニングには1時間あたり3ドルの追加料金がかかる。
↓Document intelligenceの料金Docsから引用

↓トレーニング時間は、カスタムニューラルのトレーニング時間は20分~1時間が相場とのこと。
https://learn.microsoft.com/ja-jp/azure/ai-services/document-intelligence/train/custom-model?view=doc-intel-4.0.0#compare-model-features

その他

ページ数に応じて料金がかかる仕組みです。(従量課金)
リージョンによって料金は異なるが東日本リージョンだと、1,000ページあたり30ドル。

https://azure.microsoft.com/en-in/pricing/details/ai-document-intelligence/

+で学習するドキュメントを格納するAzure Blob storageが必要になります。

https://azure.microsoft.com/ja-jp/pricing/details/storage/blobs/

カスタムモデル作成手順

以下のDocsに動画があります。そちらから手順を抜粋すると以下になります。

  1. Blobのコンテナーに学習されるドキュメントを格納
  2. Document intelligence studioからカスタムモデルのプロジェクトを作成
  3. 1で格納したBlobのコンテナーを指定
    ※ドキュメントは、Min5つ必要
  4. Tablesのfileds(抽出したい項目)を作成する
  5. トレーニング/テストの実施

https://learn.microsoft.com/ja-jp/azure/ai-services/document-intelligence/how-to-guides/build-a-custom-model?view=doc-intel-4.0.0#video-train-your-custom-model

まとめ

Azure Document intelligenceのカスタムモデルについてまとめました。
手順は誰でもできそうだなと感じました。
料金は少し高めなのかなと感じました。出力したい項目をカスタマイズできるのでそこはいいなと感じました。ただ、AOAIのStructured outputsでも同じことできるしなー。
どちらの方が精度出来るのか気になるところ。どこかで検証します。

ヘッドウォータース

Discussion