📺
少ないデータで動作を理解：TP-CLIPの時間プロンプティングがすごい理由

2025/04/13に公開
 はじめに動画から動作を理解する技術（動作認識）は、自動運転やロボディスク、監視システムなど多くの分野で重要です。しかし、従来の動作認識モデルは大規模なラベル付きデータに依存しており、データが少ない状況（ゼロショットや少ショット学習）では性能が大きく低下する課題がありました。
そこで注目を集めているのが、視覚ー言語モデル（Vision-Language Model）です。2025年4月に発表された論文「Is Temporal Prompting All We Need For Limited Labeled Action Recognition?」で提案されたTP-CLIPは、CLIPをベースに、時間プロンプティング（Temporal Prompting）とアダプター（Adapter）を導入し、少ないデータで高い動作認識性能と効率性を実現しました。
この記事では、TP-CLIPのTemporal PromptingとAdapterがなぜすごいのか、その仕組みと効果を徹底解説します。具体的には、以下のポイントを紹介します：
TP-CLIPの概要とTemporal Prompting・Adapterの役割
Temporal PromptingとAdapterの仕組み
実験結果から見るTP-CLIPのインパクト

 TP-CLIPとは？Temporal PromptingとAdapterの役割

 TP-CLIPの概要TP-CLIPは、CLIPをベースにしたモデルです。CLIPは画像とテキストのペアを大規模に学習し、高い汎化性能を示すことで知られています。しかし、CLIPは元々画像向けに設計されており、動画の時間情報（フレーム間の動的変化）を直接扱うことができません。
TP-CLIPは、この課題を解決するために、以下の二つの技術を導入しました：
Temporal Prompting：動画全体の時間情報を抽出し、各フレームに付加することで動作の動的パターンを捉える。
Adapter：CLIPのTransformer層に挿入し、空間特徴を微調整することで、CLIPのコアアーキテクチャを凍結しながら動画タスクに適応する。
これにより、TP-CLIPはゼロショットや少ショット学習で高い性能を実現しつつ、計算コストを大幅に削減しています（GFLOPs 94、SOTAの1/3; 総可変パラメータ 4.4M、SOTAの1/28）。

 Temporal Promptingの役割Temporal Promptingは、動画全体の時間コンテキストを抽出し、各フレームの埋め込みに付加する技術です。これにより、フレーム間の動的情報（例えば、手の動きの連続性）を捉え、動作の全体的なパターンを理解します。ゼロショットや少ショットタスクにおいて、unseen classesをテキスト記述だけで認識する能力を強化します。

 Adapterの役割Adapterは、CLIPのTransformer層に挿入される軽量なモジュールです。主な役割は以下の通りです：
空間特徴の微調整：CLIPの画像ベースの特徴を動画タスクに適応させる。
汎化能力の維持：CLIPのコアパラメータを凍結し、Adapterのみを訓練することで過学習を防ぐ。
効率的な学習：Adapterのパラメータは非常に少なく、全体のわずか5％にとどまる。

 Temporal PromptingとAdapterの仕組み
 Temporal Promptingの生成プロセスTP-CLIPのTemporal Promptingは、時間エンコーダ（Temporal Encoder）によって実現されます。以下のステップで時間プロンプトを生成し、各フレームに付加します。
１、フレーム埋め込みの生成

各フレーム（F_t）はCLIPのViT Encoder（E_{\text{image}}）で埋め込みベクトルに変換されます：

E_{\text{image}}(F_t)
２、フレーム埋め込みの連結

全てのフレームの埋め込みを時間軸に沿って連結し、2次元テンソルにします：

[E_{\text{image}}(F_1) : E_{\text{image}}(F_2) : \cdots :E_{\text{image}}(F_T)]
３、Conv1Dで時間パターンを抽出

連結した埋め込みに1次元畳み込み（\text{Conv1D}）を適用し、局所的な時間パターンを抽出します：

V_{\text{conv}}=\text{Conv1D}(E_{\text{image}}(F_1) : E_{\text{image}}(F_2) : \cdots :E_{\text{image}}(F_T))
４、全結合層（\text{FC}）と\text{ReLU}で時間コンテキストを生成

V_{\text{conv}}を展開し、全結合層と\text{ReLU}活性化で時間コンテキストベクトルを生成します：

T_{\text{contenxt}}=\text{ReLU}(\text{FC}(V_{\text{conv}}))
５、時間プロンプトの付加

生成したT_{\text{context}} を時間プロンプトとして、各フレームの埋め込みに付加します：

v(t)=[E_{\text{image}}(F_t) ; T_{\text{context}}]

 Adapterの仕組みAdapterは、CLIPのViT Encoder内のTransformer層に挿入される軽量なモジュールです。

構造：
Down：入力次元を低い次元に圧縮。
ReLU：非線形性を導入。
Up：元の次元にも戻す。
残差接続：入力にAdapterの出力を加算。

\text{Output}=\text{Input} + S \cdot {\text{Adapter(\text{Input})}}

　S は学習可能なスケーリング因子

 実験結果TP-CLIPは、ゼロショット、少ショット、Base-to-Novelタスクで優れた性能を示しました。以下に、論文の主要な結果を紹介します。

 ゼロショットTemporal PromptingとAdapterにより、未見のカテゴリをテキスト記述だけで正確に認識できました。
UCF-101：81.1%（SOTA比+1.7%）
HMDB-51：54.1%（SOTA比+0.2%）


K600（Top-1）：71.1%（SOTA比+2.3%）



 少ショット少ないデータでも高い性能を発揮しました。
HMDB-51（16-shot）：68.1（SOTA比+1.3%）
UCF-101（16-shot）：93.1%（SOTA比+0.4%）
Sv2（16-shot）：13.6%（SOTA比+1.2%）



 Base-to-NovelBase-to-Novelタスクでは、訓練済みカテゴリ（base classes）から未見カテゴリ（unseen classes）への汎化能力を評価します。SSv2での大幅な性能向上は、Temporal PromptingとAdapterが動作の動的パターンを捉えるのに有効であることを示しています。
Kinetics-400：HM 70.1%（SOTA比+2.2%）
HMDB-51：HM 65.8%（SOTA比+3.9%）
UCF-101：HM 82.0%（SOTA比+3.7%）
SSv2：HM 29.7%（SOTA比+15.8%）



 結論TP-CLIPは、Temporal PromptingとAdapterを活用することで、少ないデータでも動作を理解する能力を獲得しました。
少ないデータで動作を理解

Temporal Promptingは動画全体の時間情報を各フレームに付加し、Adapterは空間特徴を微調整することで、動作の動的パターンを効率的に捉えます。これにより、ゼロショットや少ショットのようなデータが限られた状況でも高い性能を発揮します。たとえば、UCF-101でゼロショット81.1%を達成し、従来手法を大きく上回りました。
効率性と性能の両立

Temporal PromptingとAdapterは軽量な設計でありながら、動作認識の精度を飛躍的に向上させます。TP-CLIP全体の計算コストも低く、GFLOPsはSOTAの1/3、可変パラメータは1/28、実用性が高いです。
汎化能力の強化

Temporal PromptingとAdapterの協調により、未見のカテゴリへの汎化能力が強化されます。Base-to-NovelタスクでSSv2のHMが29.7%（SOTA比+15.8%）に達したのは、時空間情報を統合した埋め込みが新クラスの動作パターンを捉えるのに有効だったためです。

 論文Gowda, S.N., Gao, B., Gu, X. and Jin, X., 2025. Is Temporal Prompting All We Need For Limited Labeled Action Recognition?. arXiv preprint arXiv:2504.01890.
はじめに

TP-CLIPとは？Temporal PromptingとAdapterの役割

TP-CLIPの概要

Temporal Promptingの役割

Adapterの役割

Temporal PromptingとAdapterの仕組み

Temporal Promptingの生成プロセス

Adapterの仕組み

実験結果

ゼロショット

少ショット

Base-to-Novel

結論

論文

Discussion