Amazon Bedrock Data Automation(プレビュー)を試してみた
Amazon Bedrock Data Automation(プレビュー)がリリースされたので、試してみました。
Bedrock Data Automation(BDA)とは
Amazon Bedrock Data Automation (以下BDA)は、ドキュメント、画像、音声、動画などの非構造化マルチモーダルコンテンツからデータを抽出するプロセスを簡略化するサービスです。この機能はKnowledge Baseと統合できるので、非構造化データから意味のある洞察を効率的に生成でき、RAGにおいてより関連性の高い応答を実現できます。
Bedrock Data Automationのイメージ
今までだと、非構造化データからの情報抽出は下記のような実装が必要でしたが、今回のBDAにより、簡単に情報抽出ができるようになったと考えています。
- PDFや画像からテキストを抽出するためのOCR処理の実装
- 抽出したテキストを理解・構造化するためのLLMプロンプトの設計
- 動画から音声を抽出し、文字起こし処理の構築
実際に触ってみた
概要だけではわかりにくいと思うので、まずはイメージを掴むためにデモ版を使って検証していきます。
標準出力
運転免許証
実際にBDAを使ってどのようなデータが抽出されるか確認してみます。データオートメーションの画面から「デモを見る」をクリック。
するとデモ版の一覧が表示されるので、今回は運転免許証で試してみます。運転免許証を選択したら、結果を生成をクリック。
結果がmarkdownで返ってきました。画像のように、免許証のデータがmarkdownで表示されています。
また、Resultsでは要素ごとでも確認することができます。
このように、BDAを使用することで免許証の要素を抽出することができました。
動画
次はアセットのファイルタイプを動画にしてみましょう。先ほどと同様にアセットのファイルタイプをビデオにし、結果を生成します。データはre:Inventのkeynoteです。
動画全体の要約と各シーンごとの要約が出力されました。
動画に関しては要約だけではなく、完全な文字起こしも必要になってくる場面は多いと思います。
ですので、「完全な音声トランスクリプト」をONにして、結果を再作成してみたいと思います。
クリックするとBDAプロジェクトを作成する画面になるので、プロジェクト名を入力して作成。
プロジェクトを作成すると、先ほどの結果と違い、完全な文字起こしができています。
このように、動画に対してもきちんと要素を抽出することができました。
カスタム出力
先ほどはドキュメントと動画について出力を行いました。次はカスタム出力を試してみます。現在、カスタム出力はドキュメントと画像の2つがサポートされています。カスタム出力は標準出力と違い、どのようなデータをどう抽出するか柔軟に定義でき、抽出したデータを他のシステムで使えるように変換できる機能です。
まず、カスタム出力を行うために、ブループリントを作成します。ブループリントとは、特定のアセットタイプのカスタム出力設定を指定する方法です。
ここでも概要を掴むためにサンプルデモを使用します。今回はサンプルデモとして請求書のブループリントを作成します。Generate blueprintをクリックしましょう。
すると画像のような結果が表示され、請求書の項目が抽出されていることがわかると思います。
では実際にこのブループリント(サンプルデータなので、コピーしたものを使用)を使って、テキスト抽出をしてみます。抽出した結果が以下の通りです。
標準出力
カスタム出力
一部抽出出来ていない項目がありますが、カスタム出力を使用しブループリントで指定した形式で情報抽出ができました。
料金
BDAの料金(オレゴン)は以下の通りです。
標準出力
コンテンツタイプ | 料金 |
---|---|
オーディオ | 0.006ドル/分 |
文書 | 0.010ドル/ページ |
画像 | 0.003ドル/画像 |
ビデオ | 0.050ドル/分 |
カスタム出力(標準出力を含む)
コンテンツタイプ | 料金 |
---|---|
文書 | 0.040ドル/ページ |
画像 | 1画像あたり0.005ドル |
カスタム出力はページの処理に使用されるブループリントに1〜30個の定義済みフィールドがある場合に適用されます。仮に30個を超えるフィールドがある場合、30個を超える追加フィールドごとに0.0005ドルが請求されます。
例:
ドキュメントが10ページあり、40個のフィールドを持つブループリントを使用して処理した場合
1ページあたりの料金:
0.040 ドル + 10(30 を超える追加フィールドの数) * 0.0005 ドル = 0.045 ドル
合計金額:
0.045(1ページあたりの料金) * 10 ページ = 0.45ドル
まとめ
非構造データをRAGとして扱う場合、様々な方法で要素を抽出していましたが、Bedrock Data Automationを使用することで簡単に情報を抽出することが可能になりました。今回のブログでは触れませんでしたが、Knowledge Baseとの連携もできますので、次はそのブログを記載したいと思います。
Discussion