👏

SigLIP 符号化器とは?

2025/03/17に公開

1. SigLIP とは?

SigLIP(Sigmoid Loss Image-Text Pretraining)は、画像とテキストの関係を学習するためのモデルです。
特に、画像をベクトル化(エンコード)して、テキストと対応付ける技術として使われます。

例えば、「犬の画像」を SigLIP に入力すると、それを数値ベクトルに変換し、「Dog(犬)」という単語と関連付けることができます。


2. どういう技術なのか?

SigLIP は CLIP(Contrastive Language-Image Pretraining) に似た技術ですが、違いとして Sigmoid Loss(シグモイド損失) を活用しています。

🔹 CLIP の基本(従来の方法)

CLIP は、画像とテキストを対照学習(Contrastive Learning)で結びつける 仕組みです。

  1. 画像とテキストのペア(例:「犬の写真」と「Dog」というラベル)を学習
  2. 画像とテキストを別々のエンコーダ(ViT や ResNet などの画像エンコーダ、Transformer ベースのテキストエンコーダ)でベクトル化
  3. 画像とテキストの類似度を最大化(正しいペアの類似度を上げ、間違ったペアの類似度を下げる)

この方法は効果的ですが、「多対多の関係(例:1つの画像が複数の意味を持つ)」の学習にはあまり適していません。

🔹 SigLIP の改良点

SigLIP では、対照学習ではなく、Sigmoid Loss(シグモイド損失) を用いた学習を行います。
これにより、1つの画像に対して複数の意味(マルチラベル)を考慮できる ようになります。

例えば、CLIP では「犬の画像」には「Dog(犬)」というラベルしか学習されにくいですが、SigLIP では

  • 「Dog(犬)」
  • 「Mammal(哺乳類)」
  • 「Pet(ペット)」

など、複数のラベルが適切に学習されます。


3. Gemma 3 での SigLIP の役割

Gemma 3 では、417M パラメータの SigLIP を視覚エンコーダ(画像処理モジュール)として採用しています。
その主な役割は 画像を数値ベクトルに変換し、テキストと組み合わせて処理できるようにすること です。

また、学習時には SigLIP のパラメータは 固定(Freezed) されています。
つまり、Gemma 3 の学習中には SigLIP は更新されず、すでに学習済みの状態で利用 されます。

これは、計算コストを下げるための選択であり、「仕方なくそうしている」とも言われています。


4. SigLIP のメリット

マルチラベル対応が可能 → 1つの画像に対して複数の意味を学習できる
計算コストが比較的低い → CLIP よりも効率的に学習できる
Gemma 3 で画像をベクトル化し、AI に視覚能力を持たせるために活用


5. まとめ

  • SigLIP は、画像をベクトル化し、テキストと対応付ける技術
  • CLIP に似ているが、Sigmoid Loss を使うことで「多対多の関係」を学習できる
  • Gemma 3 では、視覚エンコーダとして採用され、学習時には固定されている
  • 画像を AI に理解させるために重要な技術

要するに、SigLIP は 「画像を言葉と結びつける賢い変換機」 みたいなものですね!

Discussion