【論文まとめ】 Semantic Library Adaptation (CVPR2025)
[1]
Semantic Library Adaptation: LoRA Retrieval and Fusion for Open-Vocabulary Semantic Segmentation (CVPR2025)Open-vocabulary semantic segmentationのためのtraining-freeなtest-time domain adaptation手法である
使用している図表および計算式はすべて論文[1:1]のものを使用、引用しています。
背景
Open vocabulary(OV) semantic segmentationモデルは、学習したデータセットとは異なる分布のデータ(domain shift)に対しては性能が低下しやすく、これは実世界のアプリケーションにおいて問題となる。また、OV semantic segmentationに特化したドメイン適応手法は提案されていない。
そこで、SemLAを提案。
提案手法
SemLAでは、まず各データセットにおいてLoRA[2]を用いた個別のadapterを学習し、それぞれのドメインを表現するための特徴としてCLIP[3] embeddingsのセントロイドを計算する。各LoRA adapterとセントロイドはペアで保存しておき、LoRA Adapters Libraryを構築する。テスト時には入力画像のCLIP embeddingsとセントロイドの距離をもとにlibraryから使用するadapterを選択し、ドメインに適応した推論を行う。
LoRA Adapters Libraryの構築
各データセットに対してfine-tuningを行い、LoRA adapterを作成。対応するデータセットのセントロイドとの対応付けを行い格納する。
モデルのオリジナルの重みは固定されつつ、LoRAパラメータのみが更新されるため、ドメイン特有のadapterが得られる。
CLIP Embeddingsとセントロイドの計算
各データセット
各画像
Dynamic Test-Time Adaptation
テスト時には入力画像のCLIP embeddingsをもとに最適なadapterを複数選択しつつ、それらをマージすることで動的なtest-time adaptationを行う。
Adapterの選択とfusion
入力画像から得られるCLIP embeddings
また、各adapterと入力画像の関係性を定量化するために、温度パラメータ
この重み
LoRAでは、LoRAパラメータである学習可能な低ランク行列
そのため、SemLAでは選択されたadaptersと計算された重みを使用して、モデルのパラメータは以下のように更新される:
結果
評価にはOV segmentationのSOTAモデルであるCAT-Seg[4]を使用。
以下の手法について比較:
- Uniform LoRA Merging
ターゲットドメインに対応するLoRA adapterを除いた全てのLoRAアダプタを平均する。
各ドメインのLoRAの重要度や近さを一切考慮しない。 - SemLA
提案手法。 - Uniform (Late Fusion)
テスト画像をターゲットドメイン以外のすべてのLoRA adapterで個別に推論し、その出力を平均する。LoRA weightsを合成してから推論ではなく、各adapterで個別に推論してから出力を後で平均する。 - SemLA (Late Fusion)
SemLAと同様に、重みを距離に応じて決める。ただし、その重みはLoRAパラメータではなく、softmax出力のfusionに使う。
SemLA: パラメータに重みをかけて1つのモデルに統合。
SemLA (Late Fusion): 出力(softmax)に重みをかける。 - Oracle
ターゲットドメインで直接訓練されたLoRAアダプタを使って推論。
定量的評価
定性的評価
-
Qorbani, Reza, et al. "Semantic Library Adaptation: LoRA Retrieval and Fusion for Open-Vocabulary Semantic Segmentation." arXiv preprint arXiv:2503.21780 (2025). ↩︎ ↩︎
-
Hu, Edward J., et al. "Lora: Low-rank adaptation of large language models." ICLR 1.2 (2022): 3. ↩︎
-
Radford, Alec, et al. "Learning transferable visual models from natural language supervision." International conference on machine learning. PmLR, 2021. ↩︎
-
Cho, Seokju, et al. "Cat-seg: Cost aggregation for open-vocabulary semantic segmentation." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024. ↩︎
Discussion