👏

SigLIP 符号化器とは？

2025/03/17に公開

 1. SigLIP とは？
SigLIP（Sigmoid Loss Image-Text Pretraining）は、画像とテキストの関係を学習するためのモデルです。

特に、画像をベクトル化（エンコード）して、テキストと対応付ける技術として使われます。
例えば、「犬の画像」を SigLIP に入力すると、それを数値ベクトルに変換し、「Dog（犬）」という単語と関連付けることができます。

 2. どういう技術なのか？
SigLIP は CLIP（Contrastive Language-Image Pretraining） に似た技術ですが、違いとして Sigmoid Loss（シグモイド損失） を活用しています。

 🔹 CLIP の基本（従来の方法）
CLIP は、画像とテキストを対照学習（Contrastive Learning）で結びつける 仕組みです。
画像とテキストのペア（例：「犬の写真」と「Dog」というラベル）を学習
画像とテキストを別々のエンコーダ（ViT や ResNet などの画像エンコーダ、Transformer ベースのテキストエンコーダ）でベクトル化
画像とテキストの類似度を最大化（正しいペアの類似度を上げ、間違ったペアの類似度を下げる）
この方法は効果的ですが、「多対多の関係（例：1つの画像が複数の意味を持つ）」の学習にはあまり適していません。

 🔹 SigLIP の改良点
SigLIP では、対照学習ではなく、Sigmoid Loss（シグモイド損失） を用いた学習を行います。

これにより、1つの画像に対して複数の意味（マルチラベル）を考慮できる ようになります。
例えば、CLIP では「犬の画像」には「Dog（犬）」というラベルしか学習されにくいですが、SigLIP では
「Dog（犬）」
「Mammal（哺乳類）」
「Pet（ペット）」
など、複数のラベルが適切に学習されます。

 3. Gemma 3 での SigLIP の役割
Gemma 3 では、417M パラメータの SigLIP を視覚エンコーダ（画像処理モジュール）として採用しています。

その主な役割は 画像を数値ベクトルに変換し、テキストと組み合わせて処理できるようにすること です。
また、学習時には SigLIP のパラメータは 固定（Freezed） されています。

つまり、Gemma 3 の学習中には SigLIP は更新されず、すでに学習済みの状態で利用 されます。
これは、計算コストを下げるための選択であり、「仕方なくそうしている」とも言われています。

 4. SigLIP のメリット
✔ マルチラベル対応が可能 → 1つの画像に対して複数の意味を学習できる

✔ 計算コストが比較的低い → CLIP よりも効率的に学習できる

✔ Gemma 3 で画像をベクトル化し、AI に視覚能力を持たせるために活用

 5. まとめ
SigLIP は、画像をベクトル化し、テキストと対応付ける技術
CLIP に似ているが、Sigmoid Loss を使うことで「多対多の関係」を学習できる
Gemma 3 では、視覚エンコーダとして採用され、学習時には固定されている
画像を AI に理解させるために重要な技術
要するに、SigLIP は 「画像を言葉と結びつける賢い変換機」 みたいなものですね！

1. SigLIP とは？

2. どういう技術なのか？

🔹 CLIP の基本（従来の方法）

🔹 SigLIP の改良点

3. Gemma 3 での SigLIP の役割

4. SigLIP のメリット

5. まとめ

Discussion