📖

YOLOEの仕組みを整理してみた

に公開

概要

YOLOEと呼ばれるモデルがultralyticsで公開されました。今回は私なりにYOLOEの仕組みについて整理してみました。

本記事は、下記の記事 を日本語に翻訳し、筆者自身が理解のために補足・解説を加えたものです。内容の正確性については可能な限り努めていますが、誤訳などがある場合はご容赦ください。

https://medium.com/@nandinilreddy/yolo-e-in-detail-67a7d57eef6c

背景

“see anything” がコンセプトのモデルになっている。

  • 主に三つのタスクで検出およびセグメンテーションが可能
    • Text prompts: 探してる単語をモデルに教える
    • Visual prompts: 探したいサンプル画像をモデルに示す
    • Prompt-free operation: ガイダンスなしに全てをモデルで同定する
  • YOLO-Worldのようなモデルと比較して、3倍の訓練速度と1.4倍の推論速度の向上を達成した

従来の物体検出の問題

  • 例えば、”車”と”人間”を検出するセキュリティシステムがあったとする
    • ある日、”スクーター”に乗った”人間”がやってくる
    • 従来のシステムだと、”スクーター”を学習していないため、検出に失敗してしまう

上記は閉じた語彙システムの限界であり、今までは明示的に学習をする必要があった。

アーキテクチャ

オープンボキャブラリーな検出に対応するために、近年のYOLOと同様の構造から出力された特徴量を基に構築されている。

  1. Base Network
    • YOLOv8あるいはYOLOv11で使用されたBackboneを使用
  2. PAN (Path Aggregation Network)
    • 複数のスケールに対応(YOLOv8のNeckに相当する)
  3. Core Heads
    • Regression Head
      • 物体検出のbboxの座標を予測する
    • Segmentation Head
      • セグメンテーション用のプロトタイプマスクと係数を生成
    • Object Embedding Head (今回のプロンプト周りで使用する特徴量)
      • 各アンカーポイントでの視覚内容を表現する埋め込み特徴量を作成

Processing Pipeline

  1. Image Input
    • 入力としての画像を受け取る
  2. Feature Extraction
    • BackboneとPANが階層的に複数のスケールの特徴量を抽出する
  3. Anchor Points
    • 画像をアンカーポイントのグリッドに分割する(最近はアンカーフリーだったが、このアプローチは昔のYOLOと似てる)
  4. Object Embeddings
    • 各アンカーポイントに対して、物体埋め込み(特徴ベクトル)を生成する
  5. Prompt Processing
    • 入力タイプに依存して、三つの経路のいずれかが起動する(後述)
      • Text Prompts: RepRTA pathway
      • Visual prompts: SAVPE pathway
      • No prompts: LRPC pathway
  6. Embedding Matching
    • 内積によって、オブジェクトの埋め込みとプロンプトの埋め込みを比較する
  7. Output Generation
    • モデルは下記を出力する
      • 検出された物体のbbox
      • 正確な物体境界におけるセグメンテーションマスク
      • prompt matchingに基づくクラスラベル

どのようにしてオープン語彙の課題を解決したのか

Re-parameterizable Region-Text Alignment (RepRTA)

モデルがテキストの説明を理解して、画像内の視覚要素に一致させることができるようになった。言葉を理解するだけでなく、探しているものを視覚的に識別する手助けできる機構を追加している。

技術的な詳細

目的:テキストと視覚特徴の意味的整合性(alignment)を学習すること

  1. Text Encoder

    • MobileCLIP-B(LT) のテキストエンコーダを用いて、テキストプロンプトを処理し、事前学習済みのテキスト埋め込みを獲得する
  2. Embedding Cache

    • 効率性を向上させるために、訓練データセットの全てのテキスト埋め込みは訓練開始前にキャッシュされる。これにより、訓練中に反復的にテキストエンコーダが実行されるのを防ぐ
  3. Auxiliary Network Architecture

    • auxiliary network (fθ) は、一つの線形層の後に、SwiGLU活性化ともう一つの線形層を持つlightweight SwiGLU FFNブロックで構成される
    • テキスト埋め込みを改善し、視覚特徴量との整合性を改善させる
  4. 1~3 の数式

    • テキストプロンプトをT, 文の長さをCとすると、初期埋め込みは、
      • P = Textencoder(T)
    • より改善された埋め込みがAuxiliary Network Architectureを通して達成される
      • P^{'} = f\theta(P) \in \mathbb{R}^{C \times D}
    1. 訓練中、アンカーポイントの埋め込みベクトルOは、上記の洗練された埋め込みと内積を通して比較される。
      • Label = O \cdot P^{'T}
      • これは、概要図で言うど真ん中のLabelの内積で評価してる箇所に相当
  5. Re-parameterization Process

    • 学習時と推論時に異なるネットワークを使い分けることで、性能(学習時の賢さ)と効率(推論の軽量さ)を両立するテクニック
    • 学習時はテキスト情報とのアラインメントなどリッチな情報を活用し、推論時は標準のYOLOのような軽量モデルで処理できるようにする

大まかな構造を下記に示す。推論時には補助ネットワーク全体が不要になるので、軽量かつ高速化される

[学習時]
            +------------------------+
Text (P)|(P)                 |          
            +------------------------++---------+
Feature (I)  →→→→→  | Conv w/ K′ |  →→→  Prediction
                    +---------+

[推論時]
Feature (I)  →→→→→  | Conv w/ K′ |  →→→  Prediction
                    ^^^^^^^^^^^
         これは fθ(P) を反映済みの「再パラメータ化カーネル」

ちなみに、元論文の説明は下記のようになっている。

ここで、(A)の一番上が学習時の挙動で、一番下が推論時の構造になっている。

  • BatchNormlizationは、offsetを調整し、scaleを乗算する演算のため、convのbiasとconv1x1の係数に置き換えが可能
  • さらにconv1x1の係数は、周囲を0で埋めれば、conv3x3の係数におきかえることが可能
  • 以上により、図のすべての接続は、conv3x3のbias付きconv層に置き換えが可能 (それを表したのが中段の部分)
  • 最後にそれぞれの係数を加算すれば、一つのconv3x3のbias付きconv層に置き換えが可能

数式で説明すると、下記のようになる。これによって、重みのチャネル方向Dを保持しつつ、出力チャネルCを別の特徴空間に射影するような新しい畳み込みカーネル K^{'}が得られる。

K \in \mathbb{R}^{{\tiny \wedge}} \{D \times D^{'} \times 1 \times 1\}\\ f\theta(P) \in \mathbb{R}^{{\tiny \wedge}}\{C \times D\} \\ K^{'} = f\theta(P) \circledast K^{T} \in \mathbb{R}^{{\tiny \wedge}}\{C \times D\}

ソースコードのサンプルは、下記のようになる。

import torch

C, D = 4, 3
D_dash = 7
K = torch.randn(D, D_dash, 1, 1)       # shape: (D, D', 1, 1)
F = torch.randn(C, D)            # shape: (C, D)

# einsum を使って C×D→C×D×1×1 のテンソルに再構成
K_prime = torch.einsum('cd,dexy->cd', F, K)
print(K_prime.shape)  # => torch.Size([C, D])

K_prime = 
tensor([[ 1.0073, -0.3360, -1.0229],
        [-1.4695,  0.0445,  1.7203],
        [-1.1093, -0.1270,  2.8297],
        [-1.3035,  0.3748,  0.0179]])

補足:Q. 学習後にK’を固定してるなら、未知のプロンプトにはどう対応するの?

A. 学習したテキスト埋め込みに最も近いクラスタ(carやtruck)を選んで、学習時に対応していたK’を使用する。これによって、類似した単語に準拠した物体を検出できるような仕組みになっている。

また、学習はepoch=30で実施している。

Semantic-Activated Visual Prompt Encoder (SAVPE)

目的:モデルが、検索クエリとして画像サンプルを使うことを可能にしている。サンプルと最もらしいものを見つけるVisual Promptで利用

技術的な詳細

  1. Dual-Branch Architecture
    • 二つの並列処理を実施する
      • Semantic Branch: プロンプトに依存しないセマンティック特徴量の生成
      • Activation Branch: 特徴集約のためのプロンプトを意識した重みを生成
  2. Semantic Branch Implementation
    • PANで生成された{P3, P4, P5}を利用
    • それぞれのスケールに対して、二つの3x3の畳み込み層を適用
    • 特徴量をアップサンプリングして集約
    • 意味のある特徴量 S \in \mathbb{R}^{{\tiny \wedge}}(D \times H \times W) に射影する。Dは埋め込み次元に対応。HとWは画像のheightとwidth
  3. Activation Branch Implementation (1.のb.)
    • バイナリマスクでvisual promptを定式化
    • マスクをダウンサンプリングして、3x3の畳み込み層を通して処理を行い、プロンプト特徴量に変換
      • FV \in \mathbb{R}^{\tiny \wedge}(A \times H \times W)
    • 画像特徴量 ( FI \in \mathbb{R}^{\tiny \wedge}(A \times H \times W) )を畳み込み層を通して{P3, P4, P5}から抽出
    • FVとFIを結合して、プロンプト依存の重みWを生成する
      • W \in \mathbb{R}^{\tiny \wedge}(A \times H \times W)
    • プロンプトが示す領域内でソフトマックスを使用して重みを正規化
  4. Grouping and Aggregation
    • セマンティック特徴量SをAのグループに分割する
      • default to A=16
    • 各グループは D/A のチャンネルを持っており、Wに対応するチャンネルから重みを共有する
    • このアプローチにより、視覚的手がかりをより低い次元(A≪D)で処理することが可能になり、計算コストが削減される
  5. 数学的な定式化
    • 最終的なプロンプト埋め込みは集約によって生成される
      • P = Concat(G1,...,GA)
      • ここで、 G_{i} = W_{i+1} \cdot S^{T}[D/A_{i} : D/A_{i+1}]
      • この埋め込みは次にアンカーポイントの物体埋め込みを参照して、類似した視覚特徴量を同定する

補足:epoch=2でSAVPEのみを学習している点に注意。

まとめ

  • 重要なのは、意味的特徴とプロンプト固有の活性化との間の効率的な相互作用
  • 最小限の計算オーバーヘッドで強力な視覚的マッチングを実現
  • 視覚的プロンプトをより低い次元(A=16 vs. D=通常256または512)で処理することにより、SAVPEはモデルを軽量に保ちながら強力な性能を達成

Lazy Region-Prompt Contrast (LRPC)

目的: プロンプトを使わずに、あらゆる認識可能な物体を同定する

技術的な詳細

  1. Problem Reformulation

    (計算コストの高い)汎用的な言語モデルを使って物体の説明をするのではなく、検索問題に対するプロンプトフリーな検出問題として再定式化した

    • まず、すべての物体を検出する
    • そして、検出された領域と事前に定義された語彙を効率的にマッチングさせる
  2. Specialized Prompt Embedding (SPE)

    • 訓練中、YOLOEは 特殊なプロンプト埋め込み(Ps) を学習し、単一カテゴリとしてすべての物体を検出するように最適化する
      • LRPCで学習してるのは、SPEのみで、アンカーポイントに何か物体がいるかどうかを判定してるのみ(ultralyticsのdfl_lossと同じ)。単純なので、1epochで十分という位置付けになっている
        • より詳しく述べると、パラメータが少ないのと、目的が単純なのと、Zero-shot性能の悪影響を防ぐ(過学習の抑制)の三つが目的
    • この埋め込みは、同じデータセットを使って1エポックだけ学習されるが、すべてのオブジェクトは単一クラスとしてラベル付けされる
    • 一般的な "物体らしさ" 検出器を作成するために利用される
  3. Built-in Vocabulary

    • 4585種類の一般的な物体カテゴリの語彙を内蔵している
    • 多様なオブジェクトのタイプと属性をカバーするタグリストから収集されており、テキストエンコーダを使用して事前に計算されたテキスト埋め込みを使用
  4. Efficient Two-stage Detection Algorithm

    • step1: Filtering
      • 特殊なプロンプト埋め込みを適用して、オブジェクトのあるアンカーポイントを特定する
      • O' = \{\, \mathbf{o} \in O \mid \mathbf{o} \cdot \mathbf{P}_{s}^{\mathsf{T}} > \delta \,\}
        • Oは全てのアンカーポイント集合で、Psは特殊なプロンプト埋め込み、δはフィルタリングの閾値0.001が設定されている
        • ここで生成されるのは1xDのベクトルになる(Dは検出数)
    • step2: Retrieval
      • 語彙に対するアンカーポイントO’をフィルタリングする
      • この "怠惰な "アプローチは、関連する領域に対して計算コストのかかるマッチングを実行するだけである。
  5. 数学的な定式化

    • フィルタリングされたアンカーポイント o \in O^{'} に対して、類似度スコアを計算する
      • Scores = o \cdot V^{T}
    • Vは全ての語彙の埋め込み行列
    • 予測されるカテゴリとして、最もスコアの高いものが選択される

まとめ

重要な革新点は、すべての語彙(4,585語)に対してすべてのアンカーポイント(通常8,400以上)を処理する必要性を回避することである。最初にフィルタリングを行うことで、LRPCは計算を最大80%削減し、精度を落とすことなく1.7倍のスピードアップを達成した。これにより、競合他社が必要とする大規模な言語モデルへの依存を排除し、プロンプト・フリー検出をリアルタイム・アプリケーションに実用化している。

Reference

  • YOLOEの元論文

https://arxiv.org/abs/2503.07465

  • 海外の説明記事

https://medium.com/@nandinilreddy/yolo-e-in-detail-67a7d57eef6c

  • 途中で言及されていたYOLO-world
    • ※ テンセント製だが、テンセントは2025年1月にCMCリストに入ったので、アメリカでの商用利用はアウトだと思われる

https://github.com/AILab-CVC/YOLO-World

  • Re-parameterizationが実装されてるRepVGGの解説と元論文

https://dev.classmethod.jp/articles/yolov7-architecture-overall/

https://arxiv.org/abs/2101.03697

Discussion