🐕‍🦺

画像処理における自己教師あり学習入門

に公開

画像処理における自己教師あり学習入門

1. はじめに

自己教師あり学習(self-supervised learning, 以下 SSL)は、外部の教師ラベルを用いずにデータ自身の構造や相互関係から有用な特徴表現を学習させる枠組みです。近年は画像・音声・言語など多様な領域で成果が報告され、産業でも導入事例が増えています。

本稿では画像分野に焦点を当てます。公開済みの事前学習済み SSL モデルや自前で事前学習を行ったモデルを画像タスクへ組み込むことを想定し、次の流れで解説します。

  1. SSLの全体像
  2. SSLのメリット
  3. 代表的な事前学習タスク
  4. SSLモデルの活用/応用例
  5. 活用における注意点

1.1 SSLの全体像

SSLモデルの活用は、学習フェーズと推論フェーズの2段階に分けて考えることができます。

学習フェーズ

学習フェーズは上流(upstream)と下流(downstream)の2工程で構成されます。

上流では、ラベルなし画像を用いてSSLタスクを実行します。ここで獲得するのは、特定の下流タスクに依存しない汎用的な特徴表現(埋め込み表現)です。画像の構造や意味的な情報を捉えた表現を、ラベルなしで学習できる点がSSLの特徴です。

下流では、上流で得た事前学習済みモデルを読み込み、少量のラベル付きデータで微調整(fine-tuning)を行います。上流で獲得した汎用的な表現を土台として、分類・検出などの具体的なタスクに適応させます。ゼロから学習する場合と比べ、少ないラベルで高い精度を達成しやすくなります。

工程 手順 目的
上流(事前学習) ラベルなし画像でSSLタスクを実行 汎用的な特徴表現の獲得
下流(微調整) 事前学習済みモデルを少量ラベルで微調整 目的タスクへの適応

推論フェーズ

学習が完了したモデルを使用する段階です。タスクに応じて2つの利用形態があります。

分類や検出など明確な出力が必要な場合は、微調整済みモデルに新規画像を入力し、クラスラベルやバウンディングボックスなどの結果を得ます。一方、画像検索やクラスタリングでは、エンコーダ部分のみを使用して特徴ベクトルを取得し、ベクトル間の距離計算によって類似画像の検索やグループ化を行います。

利用形態 手順 適用例
ヘッド付き推論 微調整済みモデルに新規画像を入力し結果を出力 画像分類、物体検出、セグメンテーション
特徴抽出のみ エンコーダで特徴ベクトルを取得 画像検索、類似度計算、クラスタリング

具体的な微調整手順やタスク別の使い分けは 3.2 で詳述します。


1.2 SSLのメリット

SSLの最大のメリットは、学習に必要なラベル付きデータの量を大幅に削減できる点です。従来の教師あり学習では、モデルの性能を高めるために大量のラベル付きデータが必要でした。医療画像や衛星画像のように、専門家によるラベル付けが高コストな領域では、これが大きな障壁となります。SSLでは、上流の事前学習でラベルなしデータから汎用的な表現を獲得するため、下流の微調整では少量のラベル付きデータで実用的な精度に到達できます。

また、一度事前学習で獲得した表現は、分類・検出・検索・可視化といったさまざまな下流タスクに適用できます。タスクごとにゼロから学習する必要がなくなるため、新しいタスクに取り組む際の学習時間とデータ収集の手間を削減できます。


2. 代表的な事前学習タスク

上流ステップでモデルに汎用的な表現を学習させるタスクとして、ここでは代表的な例を2つ紹介します。

2.1 MAE (masked auto-encoder)

MAE (masked auto-encoder) [2] は、BERT [1] の masked language modeling を画像に転用した手法です。画像を小さなパッチに分割し、その大部分をランダムにマスクしてエンコーダに入力します。デコーダはマスクされていないパッチの情報のみを手がかりに、マスクされたパッチのピクセル値を復元するよう学習します。この復元タスクを通じて、エンコーダは隣接パッチ間の関係性や物体の形状・テクスチャといった画像の内在的な構造を捉える表現を獲得します。


図1 MAE

2.2 対照学習

対照学習 (contrastive learning) では、一枚の画像にランダムなデータ拡張を施して得た2つの派生画像を「正例」とみなし、その特徴ベクトル同士を近づけます。これに対し、別画像から生成した派生画像は「負例」として距離が離れるように学習することで、ラベルなしのまま画像間の相対的な類似度を学習します。


図2 対照学習

対照学習の例として SimCLR [3] と MoCo [4] があります。SimCLR は大規模バッチでシンプルな対照損失を用い高性能を達成しました。MoCo はメモリキューを導入し、小規模バッチでも安定した学習を実現しています。

2.3 ハイブリッド手法

ピクセル復元と対照学習を組み合わせる研究も活発です。Bootstrap Your Own Latent [5] は、自己生成した特徴を次ステップで再現する学習目標を採用し、正例・負例を明示せず高性能を示しています。


3. SSLモデルの活用/応用例

SSLは特にラベル取得が困難なドメインで大きな効果を発揮します。ここでは具体的な適用領域と、代表的なタスク形態について説明します。

3.1 ラベル取得が困難なドメイン

医療画像では、病変のアノテーションに専門医の知識が必要であり、大量のラベル付きデータを用意することが困難です。SSLを用いることで、ラベルなしの画像データから汎用的な表現を学習し、少量のラベル付きデータで病変検出や組織分類を行えます。

衛星・リモートセンシング画像も同様に、広大な地域をカバーするためラベル付けのコストが高くなります。雲の判定や土地利用分類などのタスクで、SSLによる事前学習が有効です。

製造業の外観検査では、欠陥サンプルの収集自体が難しい場合があります。正常品のみで事前学習を行い、少量の欠陥サンプルで微調整することで、効率的に検査モデルを構築できます。

具体的な事例として、Tiu らは報告書テキストと画像37万対を対照学習し、ラベルなしのゼロショットで8病変を分類、外部データセットで AUROC = 0.89 を達成しました [6]。また、Hu らの研究では、ラベルなし画像で事前学習した後 Faster R-CNN を微調整し、NEU-DET データセットで mAP@50 = 0.768(教師ありベースライン比 +0.08)を達成、ラベル作成コストを70%以上削減しています [7]。

3.2 タスク形態と利用方法

SSLモデルの利用方法は、タスクの性質によって異なります。

画像分類では、事前学習済みエンコーダに線形層や MLP ヘッドを追加し、少量のラベル付きデータで微調整します。従来の教師あり学習と比較して、必要なラベル数を大幅に削減できます。物体検出やセグメンテーションでも同様のアプローチが有効で、COCO や PASCAL VOC などのベンチマークで大幅な性能改善が報告されています。

一方、画像検索やクラスタリングでは、微調整を行わずにエンコーダの出力をそのまま特徴ベクトルとして利用します。この場合、追加のラベルは不要です。ベクトル間の距離計算によって類似画像の検索やグループ化を行います。


4. 活用における注意点

4.1 公開モデルを利用する場合

公開されている事前学習済みモデルを利用する場合、目的のドメインに近いデータで学習されたモデルを選ぶことで精度が安定します。ImageNet で学習されたモデルは汎用性が高いですが、医療画像など特殊なドメインでは、そのドメイン向けに学習されたモデルの方が適切な場合があります。

モデルサイズと推論速度も重要な検討事項です。大きなモデルは表現力が高い一方で、推論に時間がかかり、必要なメモリも増加します。サービスの要件に合わせて、精度と速度のバランスを考慮して選定します。

タスク固有のデータで追加の微調整を行うことで、さらに精度を向上させることができます。事前学習済みモデルを土台にするため、ゼロからの学習と比べて必要な計算資源は少なく済みます。

4.2 自前で事前学習を行う場合

自前で事前学習を行う場合は、大規模なデータと計算資源が必要です。数千万から数億枚のラベルなし画像と、複数の GPU を用いた分散学習環境が求められます。

分散学習の設定やハイパーパラメータの調整には専門的なノウハウが必要です。学習の安定性や収束性を確保するために、バッチサイズ、学習率、ウォームアップ期間などを適切に設定する必要があります。

また、使用するデータのライセンスや、開発にかかるコストの妥当性を事前に検討することが重要です。公開モデルで十分な精度が得られる場合は、自前での事前学習は必要ありません。

4.3 共通の課題

事前学習に使用したデータと実際の運用データの間に分布の差(ドメインギャップ)がある場合、精度が低下することがあります。この場合は、運用データに近いデータでの追加学習や、前処理による分布の調整が必要になります。

大規模なモデルを使用する場合、GPU メモリの使用量や推論時間が増加します。本番環境での検証を行い、サービス要件を満たすかどうかを確認することが重要です。


5. まとめ

SSLはラベル収集が難しい領域で高い効果を発揮し、研究・産業の双方で利用が拡大しています。画像分野における主要な事前学習タスクとして、masked image modeling(MAE など)と対照学習(SimCLR、MoCo など)があります。

公開されているSSLモデルを活用することで、医療・衛星・製造など多様なドメインに対して、少量のラベル付きデータで高精度なモデルを構築できます。一方、自前で事前学習を行う場合は、データ規模や計算資源、ドメイン適合性を見極めた上で判断することが重要です。


6. 参考文献

[1] J. Devlin, M.-W. Chang, K. Lee, and K. Toutanova,
"BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding."
Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL-HLT), pp. 4171-4186, 2019.

[2] K. He, X. Chen, S. Xie, Y. Li, P. Dollár, and R. Girshick,
"Masked Autoencoders Are Scalable Vision Learners."
Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 16000-16009, 2022.

[3] T. Chen, S. Kornblith, M. Norouzi, and G. Hinton,
"A Simple Framework for Contrastive Learning of Visual Representations."
Proceedings of the 37th International Conference on Machine Learning (ICML), pp. 1597-1607, 2020.

[4] K. He, H. Fan, Y. Wu, S. Xie, and R. Girshick,
"Momentum Contrast for Unsupervised Visual Representation Learning."
Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 9729-9738, 2020.

[5] J.-B. Grill, F. Strub, F. Altché, C. Tallec, et al.,
"Bootstrap Your Own Latent (BYOL)."
Advances in Neural Information Processing Systems (NeurIPS), vol. 33, pp. 21271-21284, 2020.

[6] E. Tiu, E. Talius, P. Patel, et al.
"Expert-level detection of pathologies from unannotated chest X-ray images via self-supervised learning."
Nature Biomedical Engineering, 6(6): 1-10, 2022. DOI: 10.1038/s41551-022-00936-9.

[7] S. Hu, X. Ma, W. Xu, et al.
"Application of self-supervised learning in steel surface defect detection."
Journal of Materials Informatics, 5: 44, 2025. DOI: 10.20517/jmi.2025.21.



フェアリーデバイセズ公式

Discussion