Azure AI Content Understanding(プレビュー)を正直レビュー!
AI Content Understandingとは
11月のMicrosoft Igniteで新しく発表されました!
サービスのコンセプトとしては「非構造化データを構造化データに」だそうです。
画像・音声ファイル・動画・テキストファイルを解析してユーザーが指定したスキーマに振り分けてくれます。
現在はプレビュー版ですので、まだ正式にリリースはされていません。
今回検証してみること
弊社Data&AIのメンバーがすでにドキュメントデータの検証をしてくれましたので、僕の方では音声と動画ファイルを使った検証をしてみます。
こちらの記事も併せてみたらこのサービスのイメージがつきやすいかと思います。
環境構築
Azure AI Studioにアクセス。
右下に「Content Understanding」があるので選択。
左上の「Create new Content Understanding project」を選択。
「新しいハブの作成」を選択
それぞれ入力...
Storageを作成 or 既存のものを選択します。
ここに分析結果とかアップロードしたファイルが格納されるようです。
これで作成完了
音声ファイル(.wav)で検証
1. 音声ファイルを用意&アップロード
Pythonでロジック作ってwavファイルを生成するのめんどくさいので、Azure Speech Studioを活用します。
社員を紹介している内容が入った30秒のwavファイルを生成しました。
ファイルをアップロードします。
できました。
2. スキーマ定義
抽出したいフィールド(名前・説明・型・生成方法)を指定します。
ファイルをアップロードすると、ファイル形式によってテンプレートの選択肢一覧が表示されます。
1番上(Video shot analysis)は1から自分でスキーマを定義して、下2つはテンプレートになります。
テンプレートを活用しても良いですが、自分の要望に合うフィールドを作成した方が良いかと思います。
言語も自動か手動で選択ができます。
今回はこんな感じにしました。
3. 分析の実行
左上の「Run analysis」をクリックして分析を開始。
4. 結果
おーー。良い感じだ。
30秒の短い動画だから精度が良い可能性もありますが、期待してた結果を返してくれました。
ちなみにwavファイルの時点ではフラッターになってたのが「Flutter」に変換されてスキーマに入れられてるの超高評価ポイント。
動画(.mp4)で検証
1. 動画ファイルをアップ
社内で活発に行われている、生成AIのナレッジ共有会の動画をアップロードしてみます。
動画の時間は30分で、拡張子はmp4です。
言語を日本語に指定したら、分析の結果がうまく返ってこなかったので今回は自動にしておきます。
2. スキーマ定義
スキーマはこんな感じにしてみました。
3. 分析の実行
左上の「Run Analysis」をクリックして分析を実行。
4. 結果
かなり時間がかかったものの分析が完了しました。
まず最初に、この動画に対して一つの結果が返ってくるのかと思ってたのですが、どうやら違うようです。
1~2分ごとに分割されて、分割された動画ごとに指定したスキーマの結果が返ってきました。
他のコンテンツも見てみました。
分割のタイミングによってはスキーマに該当するワードが出てきたりするので、その時は値が抽出されてます。
うーん..
イメージ的には動画全ての内容を踏まえたスキーマが一つ返ってくると思っていたので想定外でした。
今回の22分の動画だと26分割されてるので、26個のスキーマを統合するのは自分でやらないといけない感じ??
こんな感じでデータが返ってきてもどう使えるんだ?というのが感想です。
何かいい方法あるのかな。
感想
めちゃくちゃ良いサービスだなと思いました。
このサービスを活用することで、データ分析時のデータのバリエーションが多種多様になりそうです。
ただ動画に関してはまだ使用用途が掴めません。
気になるところとしては、ドキュメントとか音声のみのファイルはすでに解析モデルとかあるから、それと比べて精度に差があるのかな??
あとは金額が気になるところではある..
Discussion