📺

少ないデータで動作を理解:TP-CLIPの時間プロンプティングがすごい理由

に公開

はじめに

動画から動作を理解する技術(動作認識)は、自動運転やロボディスク、監視システムなど多くの分野で重要です。しかし、従来の動作認識モデルは大規模なラベル付きデータに依存しており、データが少ない状況(ゼロショットや少ショット学習)では性能が大きく低下する課題がありました。

そこで注目を集めているのが、視覚ー言語モデル(Vision-Language Model)です。2025年4月に発表された論文「Is Temporal Prompting All We Need For Limited Labeled Action Recognition?」で提案されたTP-CLIPは、CLIPをベースに、時間プロンプティング(Temporal Prompting)とアダプター(Adapter)を導入し、少ないデータで高い動作認識性能と効率性を実現しました。

この記事では、TP-CLIPのTemporal PromptingとAdapterがなぜすごいのか、その仕組みと効果を徹底解説します。具体的には、以下のポイントを紹介します:

  • TP-CLIPの概要とTemporal Prompting・Adapterの役割
  • Temporal PromptingとAdapterの仕組み
  • 実験結果から見るTP-CLIPのインパクト

TP-CLIPとは?Temporal PromptingとAdapterの役割

TP-CLIPの概要

TP-CLIPは、CLIPをベースにしたモデルです。CLIPは画像とテキストのペアを大規模に学習し、高い汎化性能を示すことで知られています。しかし、CLIPは元々画像向けに設計されており、動画の時間情報(フレーム間の動的変化)を直接扱うことができません。

TP-CLIPは、この課題を解決するために、以下の二つの技術を導入しました:

  • Temporal Prompting:動画全体の時間情報を抽出し、各フレームに付加することで動作の動的パターンを捉える。
  • Adapter:CLIPのTransformer層に挿入し、空間特徴を微調整することで、CLIPのコアアーキテクチャを凍結しながら動画タスクに適応する。

これにより、TP-CLIPはゼロショットや少ショット学習で高い性能を実現しつつ、計算コストを大幅に削減しています(GFLOPs 94、SOTAの1/3; 総可変パラメータ 4.4M、SOTAの1/28)。

Temporal Promptingの役割

Temporal Promptingは、動画全体の時間コンテキストを抽出し、各フレームの埋め込みに付加する技術です。これにより、フレーム間の動的情報(例えば、手の動きの連続性)を捉え、動作の全体的なパターンを理解します。ゼロショットや少ショットタスクにおいて、unseen classesをテキスト記述だけで認識する能力を強化します。

Adapterの役割

Adapterは、CLIPのTransformer層に挿入される軽量なモジュールです。主な役割は以下の通りです:

  • 空間特徴の微調整:CLIPの画像ベースの特徴を動画タスクに適応させる。
  • 汎化能力の維持:CLIPのコアパラメータを凍結し、Adapterのみを訓練することで過学習を防ぐ。
  • 効率的な学習:Adapterのパラメータは非常に少なく、全体のわずか5%にとどまる。

Temporal PromptingとAdapterの仕組み

Temporal Promptingの生成プロセス

TP-CLIPのTemporal Promptingは、時間エンコーダ(Temporal Encoder)によって実現されます。以下のステップで時間プロンプトを生成し、各フレームに付加します。

1、フレーム埋め込みの生成
各フレーム(F_t)はCLIPのViT Encoder(E_{\text{image}})で埋め込みベクトルに変換されます:

E_{\text{image}}(F_t)

2、フレーム埋め込みの連結
全てのフレームの埋め込みを時間軸に沿って連結し、2次元テンソルにします:

[E_{\text{image}}(F_1) : E_{\text{image}}(F_2) : \cdots :E_{\text{image}}(F_T)]

3、Conv1Dで時間パターンを抽出
連結した埋め込みに1次元畳み込み(\text{Conv1D})を適用し、局所的な時間パターンを抽出します:

V_{\text{conv}}=\text{Conv1D}(E_{\text{image}}(F_1) : E_{\text{image}}(F_2) : \cdots :E_{\text{image}}(F_T))

4、全結合層(\text{FC})と\text{ReLU}で時間コンテキストを生成
V_{\text{conv}}を展開し、全結合層と\text{ReLU}活性化で時間コンテキストベクトルを生成します:

T_{\text{contenxt}}=\text{ReLU}(\text{FC}(V_{\text{conv}}))

5、時間プロンプトの付加
生成したT_{\text{context}} を時間プロンプトとして、各フレームの埋め込みに付加します:

v(t)=[E_{\text{image}}(F_t) ; T_{\text{context}}]

Adapterの仕組み

Adapterは、CLIPのViT Encoder内のTransformer層に挿入される軽量なモジュールです。
構造:

  • Down:入力次元を低い次元に圧縮。
  • ReLU:非線形性を導入。
  • Up:元の次元にも戻す。
  • 残差接続:入力にAdapterの出力を加算。
    \text{Output}=\text{Input} + S \cdot {\text{Adapter(\text{Input})}}

     S は学習可能なスケーリング因子

実験結果

TP-CLIPは、ゼロショット、少ショット、Base-to-Novelタスクで優れた性能を示しました。以下に、論文の主要な結果を紹介します。

ゼロショット

Temporal PromptingとAdapterにより、未見のカテゴリをテキスト記述だけで正確に認識できました。

  • UCF-101:81.1%(SOTA比+1.7%)
  • HMDB-51:54.1%(SOTA比+0.2%)
  • K600(Top-1):71.1%(SOTA比+2.3%)

少ショット

少ないデータでも高い性能を発揮しました。

  • HMDB-51(16-shot):68.1(SOTA比+1.3%)
  • UCF-101(16-shot):93.1%(SOTA比+0.4%)
  • Sv2(16-shot):13.6%(SOTA比+1.2%)

Base-to-Novel

Base-to-Novelタスクでは、訓練済みカテゴリ(base classes)から未見カテゴリ(unseen classes)への汎化能力を評価します。SSv2での大幅な性能向上は、Temporal PromptingとAdapterが動作の動的パターンを捉えるのに有効であることを示しています。

  • Kinetics-400:HM 70.1%(SOTA比+2.2%)
  • HMDB-51:HM 65.8%(SOTA比+3.9%)
  • UCF-101:HM 82.0%(SOTA比+3.7%)
  • SSv2:HM 29.7%(SOTA比+15.8%)

結論

TP-CLIPは、Temporal PromptingとAdapterを活用することで、少ないデータでも動作を理解する能力を獲得しました。

  • 少ないデータで動作を理解
    Temporal Promptingは動画全体の時間情報を各フレームに付加し、Adapterは空間特徴を微調整することで、動作の動的パターンを効率的に捉えます。これにより、ゼロショットや少ショットのようなデータが限られた状況でも高い性能を発揮します。たとえば、UCF-101でゼロショット81.1%を達成し、従来手法を大きく上回りました。
  • 効率性と性能の両立
    Temporal PromptingとAdapterは軽量な設計でありながら、動作認識の精度を飛躍的に向上させます。TP-CLIP全体の計算コストも低く、GFLOPsはSOTAの1/3、可変パラメータは1/28、実用性が高いです。
  • 汎化能力の強化
    Temporal PromptingとAdapterの協調により、未見のカテゴリへの汎化能力が強化されます。Base-to-NovelタスクでSSv2のHMが29.7%(SOTA比+15.8%)に達したのは、時空間情報を統合した埋め込みが新クラスの動作パターンを捉えるのに有効だったためです。

論文

Gowda, S.N., Gao, B., Gu, X. and Jin, X., 2025. Is Temporal Prompting All We Need For Limited Labeled Action Recognition?. arXiv preprint arXiv:2504.01890.

Discussion