一人称視点動画解析の紹介
FPVとは?
FPV (First-Person Vision)は、一人称視点の視覚データを扱うコンピュータビジョンの一分野であり、Egocentric visionとも呼ばれます [1]。一人称視点動画は、典型的にはヘルメットやメガネに取り付けられたウェアラブルカメラや、ドローンや自立型のロボットなどに搭載されたカメラによって撮影されます。対して、三人称視点で撮影されたデータを扱う分野[1]はコンピュータビジョンにおいてより一般的であり、FPVに比べて数多くの研究が報告されています。
実際にウェアラブルカメラで撮影された一人称視点動画が下のようになります。カメラ装着者の手元が記録されている点が特徴です。
三人称視点映像の解析ではカメラで撮影された対象自体に関心があるのに対して、FPVでは撮影している本人の行動やその周囲の環境に関心がある点が最大の特徴です。撮影者の動作をできるだけ制限しない撮影デバイスとして、ウェアラブルカメラが一般的に使用されます。近年、ウェアラブルカメラは簡単に入手できるようになり、大量に一人称視点動画を集めることができるようになりました。これによって得られる大量の一人称視点データを使って、ユーザーの行動や背景を理解することが期待されています [2, 3]。
この記事では、FPV分野に関するトピックを、応用先、特徴、主なタスクの点から解説します[2]。
応用先
FPVタスクには、ライフログやヘルスケア、作業支援といった応用先が考えられています。ここでは、作業支援にスポットを当ててFPVがどのように活用されるのかを見ていきます。
FPVの技術は作業が発生する場所が固定されない状況で威力を発揮します。作業者が現場に出向き、機械の設置や修理、保守、点検などを行うシーンを想定して考えられる応用先の一部を紹介します。
-
作業工程の自動記録
FPV技術の一つであるtemporal action localizationでは、一人称視点動画から作業内容の種類を時間的に推定します。ウェアラブルカメラで録画された映像から、特定の作業がどの時間で行われたのかを示すアノテーションを作成し、作業にかかる時間の分析や作業手順の振り返り支援に役立てることができます。例えば、同じ作業を別の作業者が行ってかかる時間を比較することで効率的な手順を発見したり、熟練者の作業を参考にする際に不要な部分をスキップしたりすることを可能にします。
-
作業内容のサマリー作成
映像データから写っている内容を文章で表現する技術は、映像データ内で何が行われているかを自動的に要約する方法を提供します。長時間の作業データを要約して文章データに変換しておくことで、長時間の映像を見返すことなく必要な情報に素早くアクセスすることができるようになります。映像データから作業内容を説明する文章を生成することで、映像中の重要なアクション、出来事、および作業手順を特定し、これらを簡潔にまとめることを可能にします。ウェアラブルデバイスによる記録でこうした文章要約を達成できるので、作業者は報告書の作成から解放され、作業のみに集中できるようになります。
-
作業忘れ・異常作業の指摘
FPVは映像データから作業内容を推定する能力を提供します。推定された作業内容と規定されている作業内容が一致しているかを検証することで、作業のやり忘れや失敗を減らすことに繋がります。作業忘れについては、規定されている作業手順と実施している作業手順を比較することで、作業忘れがあった場合に自動的に指摘することができます。システムが作業手順をチェックすることで、品質と安全性を向上させることに繋がります。また、異常作業については、規定の作業内容と実施内容を比較し必要に応じて指摘します。例えば、回路の配線場所を間違えたり、ネジの閉め方が不適切である場合にシステムが指摘することで、作業ミスを減少させ、品質管理を向上させることができます。
-
危険防止
多くの産業分野において、特定の機械や設備には触れてはいけない箇所や侵入してはいけない危険なエリアが存在します。これらのエリアに侵入したり、禁止された操作を行なったりすることは、作業者や設備に重大な危険をもたらす可能性があります。FPV技術は、これらの危険な箇所やエリアを映像データから特定するのに役立ちます。FPV技術によって作業者の位置情報や行動をリアルタイムで監視することで、危険なエリアに近づいたり、危険な操作を試みたりしたときに警告を発することができます。危険な作業状況を警告し、危険を未然に防ぐことは、事故や怪我のリスクを最小限に抑え、労働安全性を向上させます。
FPV技術は、一人称視点を活用し作業者がどのような作業を実施しているかをリアルタイムで監視できます。この技術は広範な作業環境での支援を可能にし、室内、室外を問わず、製造現場、建設現場、医療施設など、多くの分野で利用できます。作業者の視点からの情報を活用することで、より正確なデータと洞察を提供し、意思決定プロセスをサポートします。
FPVの特徴
FPVで扱う動画は、視点が撮影者自身であるため、三人称視点動画とは異なる独自の特徴があります。FPVの主な特徴に以下のような点が挙げられます。
-
解析対象
一人称視点動画にはカメラを着用した撮影者が常に存在する点に大きな特徴があります。撮影される映像は撮影者を中心として得られるため、ほとんどのタスクで解析の焦点が撮影者になります。一方、三人称視点映像の解析では誰が映像を撮っているのかを重要視せず解析の焦点は写っている第三者になります。[サンプル準備中]
-
視点の変化
一人称視点動画がウェアラブルカメラで撮影されるため、視点の動きが頻繁に発生します。カメラの動きによって、視野から対象物が外れることもありますが、同時に、撮影者の注視点がどこにあるのかを推測できる情報でもあります。注視点の情報は撮影者の行動を理解するのに非常に役立ちます。
-
映り込みやすいもの
FPVにおいて撮影者は手や足といった体の一部分のみが撮影されることがほとんどです。多くのFPV解析タスクにおいて、全身の情報が得られない状況では、撮影者の一部、特に手が解析のための大きな手がかりとなります [5] 。例えば大工仕事を行う場合、工具箱を開いているのか持ち上げているのかで、これから工具を使用するかしないかの予測ができます。また、トンカチを持っているのかノコギリを持っているのかで、釘を打とうとしているのか木材を切ろうとしているのか判断できます。このように、手の動きや持ち物は撮影者の意図や行動の理解に役立つ情報源となります。
データセット
近年の深層学習に基づくML技術には大量のデータが必要とされています。三人称視点映像の解析においては、手持ちカメラやスマートフォンで撮影された動画の多くが三人称視点となることから収集が容易なため、大規模なデータセットとして公開されています [6]。対して一人称視点動画は撮影にウェアラブルカメラを必要とするため、FPVのためのデータ収集が比較的難しく、利用できるデータセットではデータの多様性や量が限られていました。そのため、三人称視点の映像解析タスクに比べてFPVのタスクでは性能向上が難しい傾向にありました。ところが近年、Ego4Dと呼ばれる世界各国の大学で大規模に収集した一人称視点動画データセット [7]が公開されました。Ego4Dデータセットは3,670時間を超える一人称視点動画が存在しており、以前から存在していた主要なデータセット(EPIC-KITCHENS-100 [8]: 100時間超、Charades-Ego [9]: 68時間超)と比較すると桁違いに大きいことがわかります。大量の一人称視点動画を使用した、FPV研究の更なる発展が今後期待されています。
FPVの主要なタスク
行動認識 (Activity Recognition)
映像データからどのような動作をしているのかを推定するタスクを動作認識 (activity recognition)と呼びます。画面内の動きから撮影者がどのような動作をしているのかを理解できれば様々な応用を可能にするため、動作認識タスクはFPVに限らずコンピュータビジョンにおいて最も重要なタスクのうちの一つです。
典型的には動画の1シーンを切り取り、そのシーンで本人がどのような動作をしているのかをあらかじめ用意したリストの中からもっともらしいラベルに分類します。予測する動作の表現の仕方にはいくつかバリエーションがあり、「サンドイッチを食べる」や「椅子を運ぶ」といった短い文章の形だったり、(「サンドイッチ」、「食べる」)や(「荷物」, 「運ぶ」)のような名詞と動詞のセットの形だったりします。[サンプル準備中]
一般に1シーン内の動作が1つだけであるとは限らず、「スマホを操作しながら水を飲む」のように複数の動作が同時に存在する可能性があります。このような場合は用意したリストのそれぞれがどの程度起こっていそうかを表現する確率を推定し、一定以上の確率を持つクラスを発生している動作として出力します。通常、動作を1つだけ特定するタスクと比べると難しいタスクになるため、起こっている動作を全て拾うのか1つだけに限定するのかはどのような応用をしたいかによって変わります。
三人称視点における行動認識タスクと大きく異なるのは、撮影者の手や足以外の体の部分がほとんど画面に映らない点です。どんな姿勢で体を動かしているのかがわからないため、画面の動きや手の動きから何をしているのかを予測する必要があります。一方で撮影者が興味を持っている物体(例えば「荷物を運ぶ」における荷物)はカメラの中心に来ることが多く、カメラと体の位置関係によっては物体が隠れてしまう三人称視点映像に比べて有利であるといえます。
Hand Object Interaction
Hand Object Interaction (HOI)は手と手で扱っている物体がどこにあるのかを認識するタスクです。一人称視点の動画では、三人称視点と異なり、体の大部分が映らない一方で特定の位置に手が映り込みやすい特徴があります。そのため、シーン内の重要なイベントが手とその周辺の物体に集中することになります。画面内のどこに手がありどんな動きをしていてどんな物を扱っているかを理解できれば、動作を認識することはもちろんその他の多くの解析に役立ちます。
HOIタスクでは、与えられた映像から手・物体の位置、それらにinteractionがあるか、また右手か左手か物体の種類の認識などを行います。[参考画像]画像中の手や物体がどこにあるのかはセグメンテーションマスクやバウンディングボックスで予測されることが多いです。
これにより、手のポーズを予測したり、物体が何なのかを認識したりできます。単純に物体を認識しただけでは、撮影者の動作とは関係ない物体を認識する必要がなくなります。
また、HOIは手のポーズや物体の種類を特定するのに使えるだけでなく、動作認識モデルの補助としても使用できます。動画のシーンに合わせて、生成した手と物体のマスクを動作認識モデルに入力することで、モデルがどこに注目するべきなのかの手助けになると考えられており、実際に動作認識の精度を向上につながることが確認されています [4]。
検索タスク
テキストや画像を用いた検索エンジンが広く用いられていますが、同じことを映像を使って行います。一般の検索エンジンと異なるのは、映像の中から、いつ、どこに検索目標が存在するのかを予測する点です。検索条件には、一般の検索エンジンと同じくテキストや画像を用いることもあれば、動画自体を与えて同じシーンを検索するものもあります。一人称視点動画は基本的にウェアラブルカメラによって撮影されるため身体が拘束されることがなく、自分視点の記録を長時間に渡って記録できるので、ライフログを残すことに適しています。長時間の映像データから効率的に見たいシーンや物体を探索できるようになります。
大量の録画記録の中から必要な情報を検索できるようになれば、自分の記憶の補助として使えます。例えば忘れ物に気づいた際、どこに置き忘れたのかを簡単に特定することができるようになるかもしれません。
その他
ここで紹介した以外にもFPVが扱うタスクはもちろん様々あります。近年開催された3rd International Ego4D Workshop @ CVPR 2023 [8]で取り上げられている主要なタスクの一部を紹介します。
-
Action anticipation
行動予測。ユーザが次にどのような行動を取るのかを予測するタスクです。カメラで捉えた直後の手と物体の位置を予測するshort-term hand object predictionや長期的な行動を予測するlong-term activity predictionといったバリエーションがあります。
-
Looking at me
こちらを見ている人を発見します。どんな人とコミュニケーションが発生しているかを理解することに繋がり、社会的インタラクションの研究に応用することができます。また、ロボットの視覚に応用することで、より有能なバーチャルアシスタントや自立型ロボットの実現につながる可能性があります。
まとめ
コンピュータビジョンの一分野であるFPVについて紹介しました。FPVでは一人称視点の視覚データを処理・分析して理解することを目指しています。ウェアラブルデバイスを使用して視覚データを取得するため、三人称視点映像に比べて体全体は映りませんが興味のある物体や手の動作などが集中して捉えられます。作業支援への応用例には、作業記録、作業忘れ防止、異常作業指摘、危険防止、技術継承などが挙げられます。こういった応用を実現するため、FPVに特有のタスクとして、Action RecoginitionやHOI、Visual queriesなどを紹介しました。
ウェアラブルデバイスの普及に伴って、得られるデータの量が今後さらに増加すると考えられる一人称視点の動画データを使って、ユーザの行動や周囲環境の理解、過去データの活用、未来の行動予測まで幅広い活用が期待されます。さらに、FPVタスクを組み合わせることによって様々な応用ができれば、新しい働き方の創出や高度なヘルスケアの提供が実現できるかもしれません。
参考文献
[1] A. Fathi, “Learning descriptive models of objects and activities from egocentric video,” Ph.D. Thesis, Georgia Institute of Technology, 2013.
[2] T. Kanade and M. Hebert, "First-Person Vision," in Proceedings of the IEEE, vol. 100, no. 8, pp. 2442-2453, 2012, doi: 10.1109/JPROC.2012.2200554.
[3] S. Mann, K. M. Kitani, Y. J. Lee, M. S. Ryoo and A. Fathi, "An Introduction to the 3rd Workshop on Egocentric (First-Person) Vision," 2014 IEEE Conference on Computer Vision and Pattern Recognition Workshops, pp. 827-832, 2014, doi: 10.1109/CVPRW.2014.133.
[4] A. Fathi, A. Farhadi and J. M. Rehg, "Understanding egocentric activities," 2011 International Conference on Computer Vision, pp. 407-414, 2011, doi: 10.1109/ICCV.2011.6126269.
[5] L. Zhang, S. Zhou, S. Stent, J. Shi, “Fine-Grained Egocentric Hand-Object Segmentation: Dataset, Model, and Applications,” Computer Vision – ECCV 2022, Springer, vol. 13689, 2022.
[6] W. Kay et al. “The Kinetics Human Action Video Dataset.” ArXiv, abs/1705.06950, 2017.
[7] Grauman, Kristen et al. “Ego4D: Around the World in 3,000 Hours of Egocentric Video.” 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 18973-18990, 2021.
[8] D. Dima et al. “Rescaling Egocentric Vision: Collection, Pipeline and Challenges for EPIC-KITCHENS-100”, International Journal of Computer Vision (IJCV), pp. 33-55, 2022.
[9] Sigurdsson, Gunnar A., et al. “Charades-ego: A large-scale dataset of paired third and first person videos.” arXiv, abs/1804.09626, 2018.
[10] https://ego4d-data.org/workshops/cvpr23(最終アクセス: 2023年7月21日)
Discussion