物体追跡(MOT)技術の研究動向
株式会社 Elith で インターン をしている松山です。普段は大学で大規模言語モデルの信頼性について研究しています。
今は大生成AI時代ですが、未だに物体検出や物体追跡は大活躍してます。今回は業務の中で関わりのあった物体追跡(以下 MOT )の技術について、サーベイを行いました。本記事では著名な MOT 手法や MOT の今後の展望について紹介します。本記事内で使用する図は参考文献から引用しています。
Tracking-by-Detection
MOT には大きく分けて2種類のアプローチがあります。1つ目は Tracking-by-Detection と言われるアプローチです。これはMOTのタスクを 「物体を検出するフェーズ 」と 「検出された物体を追跡するフェーズ」 に分けるアプローチです。1つの大きなタスクを複数の小さな独立したタスクに分割することで、物体検出には物体検出に特化した、物体追跡には物体追跡に特化した手法を用いることができ、全体として精度が高くなりやすいといわれています。適材適所、人間と同じですね。
SORT
Tracking-by-Detection の 先駆けとなったのが、 SORT です。Multiple Hypothesis Tracking (MHT) や、 Joint Probabilistic Data Association (JPDA)といった従来の手法は一定の精度がある反面、実行に大きな計算コストがかかりました。SORTは実行時間と精度のトレードオフの関係を打ち破り、リアルタイム性のある高精度なフレームワークとして知られています。
SORTのDetection
物体検出 には Faster Region CNN(FrRCNN)を用いています。これは2段階の CNN からなるアーキテクチャで、1段階目で特徴量の抽出、2段階目で物体の検出、分類を行います。2つのステージ間でパラメータが共有され、効率的なフレームワークとなっています。さらに、ネットワークアーキテクチャ自体は任意のアーキテクチャに交換できるため、異なるアーキテクチャの迅速な実験が可能で、効率的に検出性能を向上できます。
SORTのTracking
物体追跡も2段階からなります。
1段階目では、検出された各バウンディングボックスについて次フレームのバウンディングボックスの状態を推定します。
オブジェクトは以下のようにモデル化されます。
u と v はオブジェクトの中心のピクセル位置を、 s はバウンディングボックスの面積を、 r はバウンディングボックスのアスペクト比をそれぞれ表します。 r は一定とみなし、u', v', s'をカルマンフィルタを用いて最適に推論し、それをもとに u, v, sを更新します。
2段階目では実際に検出されたバウンディングボックスの情報と推定されたバウンディングボックスの情報から、検出されたバウンディングボックスと過去に登場したバウンディングボックスを紐づけます。これはバウンディングボックス間の重なり具合い( IOU 距離)を評価指標としたハンガリアンアルゴリズムで解決します。ハンガリアンアルゴリズムは割り当て問題を解くアルゴリズムで、どの人にどの仕事を割り当てれば全体として最も効率よくなるかといった問題を高速に解くことができます。
DeepSORT
SORT には物体が遮蔽物に隠れた際に ID のスイッチが起こりやすいという課題がありました。 DeepSORT はオブジェクトの紐づけに外見情報を用いることでこれを改善しました。また、その際ディープラーニングを用いています。
DeepSORTのTracking
バウンディングボックスを以下のようにモデル化します。
u と v はバウンディングボックスの中心のピクセル位置を、 r はバウンディングボックスのアスペクト比を、 h は高さをそれぞれ表します。
カルマンフィルタを用いて次フレームのバウンディングボックスを予測するのは SORT と同じですが、ハンガリアンアルゴリズムで紐づけるのではなく、各バウンディングボックス間のマハラノビス距離を計算します。また、各バウンディングボックスについて CNN を用いて画像特徴量を抽出し、コサイン類似度で各バウンディングボックスの外見の類似度を計算します。マハラノビス距離とコサイン類似度を適切な重みで足し合わせることで最終的なバウンディングボックス間の類似度を計算します。
StrongSORT
DeepSORT の後継として StrongSORT が知られています。 StrongSORT は DeepSORT の外観特徴量抽出器を強化する、カメラの視点の変化に対応する新たな補正アルゴリズムを追加するなどの工夫が盛り込まれています。
ByteTrack
SORT の後継として ByteTrack も知られています。 ByteTrack は SORT のマッチング部分を改良した非常にシンプルなものとなっていますが、非常に高い精度を誇ることが知られています。また本手法を提案した論文は Computer Vision 分野の著名な学会である ECCV に採択されています。
ByteTrackのTracking
カルマンフィルタを用いてバウンディングボックスを推論するまでは SORT と同じです。しかし、バウンディングボックスをの紐づけは2段階で行われます。まず検出されたバウンディングボックスの中から、信頼度の高いものをハンガリアンアルゴリズムでマッチングします。その後、信頼度が低いものを残ったバウンディングボックスとマッチングします。非常にシンプルな工夫ですがこれにより精度が大きく向上します。
End-to-End
MOT のアプローチの2つ目は End-to-End なアプローチです。物体検出と物体追跡に用いる特徴量を1つのアーキテクチャで計算するアプローチです。 Tracking-by-Detection と比べて実行時間が短く、リアルタイム性に優れるとされています。
FairMOT
End-to-End のアプローチを利用したMOTモデルとして FairMOT が知られています。
FairMOT は以下のような構造です。
これらのネットワークを一度に学習します。
また従来のアプローチでは以下のような疑問点や問題点が存在しました。
・物体検出では YOLO などアンカーベースの手法が用いられているが、これは MOT には適さないのではないか。
・物体検出と物体追跡では用いる外見情報の深さが異なる。物体検出では物体の属するクラスを分類する必要があり深い特徴が必要な反面、物体追跡では同クラスの異なる物体を区別するだけの浅い特徴で済む。
・従来の Tracking で用いている特徴量は次元が大き過ぎるのではないか。
FairMOT はこれらの観点から MOT の精度を向上させました。
今後の展望
MOT は現在も盛んに研究が行われており、 SoTA (最高性能)が更新され続けています。ここで述べなかったアプローチとして「コサイン類似度に代わる外観特徴の類似度計算手法の検討(UniTrack)」 や「Transformerを用いたTrackingの検討(TransMOT) 」などがあり、現在注目されています。
まとめ
本記事では MOT タスクにおける著名な手法をまとめました。リサーチする中で、知らなかった手法や既存の手法を改善するためのアプローチなど多くのことを学びました。 Elith で現在関わっている業務でこの知識を活かせそうだと考えています。実際、今回紹介した手法の一部は業務にも用いられているそうです。また、大学の研究で扱っている LLM は現在様々な分野への応用が進んでいます。その中で Computer Vision や MOT に関わる可能性もあると考えらます。そういった際に今回の経験を活かせればと思っています。
株式会社 Elith では、深層学習や機械学習を活用した社会問題の解決だけでなく、常に最新の技術動向を調査しています。
最後に宣伝となりますが、株式会社 Elith は最先端のAI技術をビジネスに実装し、価値を生み出すテックカンパニーです。
最近ではLLMの活用に関して様々な取り組みをしており、多数のイベントにも登壇しています。
少しでも興味がある方は、X(旧Twitter)経由やElithのWebページ経由で、是非気軽にお話を聞きにきてください。
参考文献
SIMPLE ONLINE AND REALTIME TRACKING
SIMPLE ONLINE AND REALTIME TRACKING WITH A DEEP ASSOCIATION METRIC
StrongSORT: Make DeepSORT Great Again
ByteTrack: Multi-Object Tracking by Associating Every Detection Box
FairMOT: On the Fairness of Detection and Re-Identification in Multiple
DO DIFFERENT TRACKING TASKS REQUIRE
DIFFERENT APPEARANCE MODELS?
TransMOT: Spatial-Temporal Graph Transformer for Multiple Object Tracking
Discussion