🧠

Amazon Bedrock Data Automation(プレビュー)を試してみた

2024/12/05に公開

Amazon Bedrock Data Automation(プレビュー)がリリースされたので、試してみました。

https://aws.amazon.com/jp/bedrock/bda/

Bedrock Data Automation(BDA)とは

Amazon Bedrock Data Automation (以下BDA)は、ドキュメント、画像、音声、動画などの非構造化マルチモーダルコンテンツからデータを抽出するプロセスを簡略化するサービスです。この機能はKnowledge Baseと統合できるので、非構造化データから意味のある洞察を効率的に生成でき、RAGにおいてより関連性の高い応答を実現できます。


Bedrock Data Automationのイメージ

今までだと、非構造化データからの情報抽出は下記のような実装が必要でしたが、今回のBDAにより、簡単に情報抽出ができるようになったと考えています。

  • PDFや画像からテキストを抽出するためのOCR処理の実装
  • 抽出したテキストを理解・構造化するためのLLMプロンプトの設計
  • 動画から音声を抽出し、文字起こし処理の構築

実際に触ってみた

概要だけではわかりにくいと思うので、まずはイメージを掴むためにデモ版を使って検証していきます。

標準出力

運転免許証

実際にBDAを使ってどのようなデータが抽出されるか確認してみます。データオートメーションの画面から「デモを見る」をクリック。

するとデモ版の一覧が表示されるので、今回は運転免許証で試してみます。運転免許証を選択したら、結果を生成をクリック。

結果がmarkdownで返ってきました。画像のように、免許証のデータがmarkdownで表示されています。

また、Resultsでは要素ごとでも確認することができます。

このように、BDAを使用することで免許証の要素を抽出することができました。

動画

次はアセットのファイルタイプを動画にしてみましょう。先ほどと同様にアセットのファイルタイプをビデオにし、結果を生成します。データはre:Inventのkeynoteです。

動画全体の要約と各シーンごとの要約が出力されました。

動画に関しては要約だけではなく、完全な文字起こしも必要になってくる場面は多いと思います。
ですので、「完全な音声トランスクリプト」をONにして、結果を再作成してみたいと思います。

クリックするとBDAプロジェクトを作成する画面になるので、プロジェクト名を入力して作成。

プロジェクトを作成すると、先ほどの結果と違い、完全な文字起こしができています。

このように、動画に対してもきちんと要素を抽出することができました。

カスタム出力

先ほどはドキュメントと動画について出力を行いました。次はカスタム出力を試してみます。現在、カスタム出力はドキュメントと画像の2つがサポートされています。カスタム出力は標準出力と違い、どのようなデータをどう抽出するか柔軟に定義でき、抽出したデータを他のシステムで使えるように変換できる機能です。

まず、カスタム出力を行うために、ブループリントを作成します。ブループリントとは、特定のアセットタイプのカスタム出力設定を指定する方法です。

ここでも概要を掴むためにサンプルデモを使用します。今回はサンプルデモとして請求書のブループリントを作成します。Generate blueprintをクリックしましょう。

すると画像のような結果が表示され、請求書の項目が抽出されていることがわかると思います。

では実際にこのブループリント(サンプルデータなので、コピーしたものを使用)を使って、テキスト抽出をしてみます。抽出した結果が以下の通りです。

標準出力

カスタム出力

一部抽出出来ていない項目がありますが、カスタム出力を使用しブループリントで指定した形式で情報抽出ができました。

料金

BDAの料金(オレゴン)は以下の通りです。

標準出力

コンテンツタイプ 料金
オーディオ 0.006ドル/分
文書 0.010ドル/ページ
画像 0.003ドル/画像
ビデオ 0.050ドル/分

カスタム出力(標準出力を含む)

コンテンツタイプ 料金
文書 0.040ドル/ページ
画像 1画像あたり0.005ドル

カスタム出力はページの処理に使用されるブループリントに1〜30個の定義済みフィールドがある場合に適用されます。仮に30個を超えるフィールドがある場合、30個を超える追加フィールドごとに0.0005ドルが請求されます。

例:
ドキュメントが10ページあり、40個のフィールドを持つブループリントを使用して処理した場合

1ページあたりの料金:
0.040 ドル + 10(30 を超える追加フィールドの数) * 0.0005 ドル = 0.045 ドル

合計金額:
0.045(1ページあたりの料金) * 10 ページ = 0.45ドル

https://aws.amazon.com/jp/bedrock/pricing/

まとめ

非構造データをRAGとして扱う場合、様々な方法で要素を抽出していましたが、Bedrock Data Automationを使用することで簡単に情報を抽出することが可能になりました。今回のブログでは触れませんでしたが、Knowledge Baseとの連携もできますので、次はそのブログを記載したいと思います。

Fusic 技術ブログ

Discussion