Google Cloud Video Intelligence API を試す。
はじめに
元々GoogleではCloudVisionという画像解析用APIが提供されていましたが、今回は動画解析APIが公開されました。(ベータ版)
アルファ版の利用には申請が必要ですが、デモ版であれば特に登録不要で利用可能です。
早速試してみましょう。
デモ版
デモ版は下記リンクから利用可能です。
Cloud Video Intelligence
下記画像のAnimalsはデモ版用に提供されている動画なのでそのまま利用できます。これを用いて分析すると「Labels」/「Shots」/「API」の三種類の結果が出力されます。
<img width="1362" alt="スクリーンショット 2017-03-21 午後7.25.10.png" src="https://qiita-image-store.s3.amazonaws.com/0/63356/c4ad5ce8-a3f7-ebaa-c46a-b2e2fd7815d8.png">
Labels
Labelsは動画全ての中で得た要素とその信頼度を表すスコアです。
<img width="1195" alt="スクリーンショット 2017-03-21 午後7.27.33.png" src="https://qiita-image-store.s3.amazonaws.com/0/63356/edd03206-8fff-fac8-8649-c8fe9eb7dc0e.png">
Shots
Shotsは動画の中でシーンが切り替わる毎に、自動で区切られそのシーンごとに要素と信頼度を表すスコアが出力されます。これはすごい!
<img width="1199" alt="スクリーンショット 2017-03-21 午後7.27.40.png" src="https://qiita-image-store.s3.amazonaws.com/0/63356/6d1aa4a8-1d72-74fe-f70d-65f3b8a75d2c.png">
API
こちらは実際に使用する際のAPIへのリクエストと、レスポンスが表示されます。
<img width="1204" alt="スクリーンショット 2017-03-21 午後7.27.58.png" src="https://qiita-image-store.s3.amazonaws.com/0/63356/cbed4c58-621d-9e2d-b54a-0208e2c73f8c.png">
別の動画を試す
GoogleCloudStorageへの登録は必要ですが、自分で用意した動画を試すことも可能です。GoogleCloudStorageにアップロード動画リンクのバケット名以下をコピーして「Custom Google Cloud Storage」のURL欄に貼り付けます。
※分析を行うためにはGoogleCloudStorageにアップロードした動画を必ず公開状態にする必要があります。
今回は、下記動画を試してみましょう。
検証用動画
Labels
人間が見ても違和感がないレベルで、出力されていますね。またMetropolitan area, Urban areaが出力されていることから、画像のオブジェクト単体で判断しているわけではなさそうです。
<img width="1177" alt="スクリーンショット 2017-03-21 午後8.03.27.png" src="https://qiita-image-store.s3.amazonaws.com/0/63356/6e543ed5-73bd-8242-e200-84962f8c3da2.png">
Shots
これは動画のシーンが、遠目からの交差点を写したシーンから、アップでのシーンに切り替わる瞬間の2枚を示したものですが、「Shot Changes」にもきっちりと認識されています。
それぞれの「Shot Labels」を比較すると、取得したラベルも異なっています。
面白いのが、後者のシーンで「Taxicab」が取得できていますが、パッと見るとタクシーは出現していないように見えます。しかしよく見ると動画5秒付近で、三輪タクシーが横切っていることが確認できます。これは一般的なタクシー(車)ではなくバイクで牽引しているようなものなので、おそらく物体の形状からでなく文字列抽出も行って判断しているんでしょうか。
<img width="1181" alt="スクリーンショット 2017-03-21 午後8.04.00.png" src="https://qiita-image-store.s3.amazonaws.com/0/63356/474274b2-145d-9044-dab8-eb1f30c9801b.png">
<img width="1176" alt="スクリーンショット 2017-03-21 午後8.04.12.png" src="https://qiita-image-store.s3.amazonaws.com/0/63356/58d9fe82-9670-0dcc-bfb7-1695f1cfa23e.png">
今後
特定のケース、例えば「動画が短い」かつ「対象オブジェクトが少ない」など条件が重なると全く取得できない場合もありましたが、殆どの動画に対してはすぐにでも実用可能なレベルで精度が高いと感じました。
既にアルファ版の申請開始しているので、興味のある方は是非申請して利用してみてください。
Discussion