Closed1

画像周りで最近読んだ論文のまとめ

bilzardbilzard

言語ドメインからのアイデア転用

Masked Autoencoders[1]

BERTのmasked language modelingをViTに応用したもの。マスクしたパッチトークンをpixel単位で予測するタスクで事前学習する。特徴としてはマスクするトークンの割合を75%とかなり多めにとったことと、マスクしたトークンを学習時に除外することで大幅な学習コストの削減を実現した。

vision-textの橋渡し

CLIP[2]

概要

「自然言語を教師信号として画像のコンセプトを学習する」ことを目指したモデル。
機械学習モデルの大規模化に伴い「モデルが学習データにoverfitしている」状況を背景に、人間による意識的なラベル付けが不要な大規模データを利用することでこの問題に対処することを目指した。
同様の動機による既存研究は実用的な水準から程遠いか、学習効率が悪く莫大な計算コストを要求するものだった。
既存手法の問題は「画像からテキストをトークン単位で予測する」という形式であり、これは利用できるテキストの量が限られていることを考えるとモデルにとって難しすぎるタスクだった。
提案手法はこの方法は諦めて、「バッチ中のテキストと画像のペアから正解のペアを学習する」という対照学習のアプローチを採用することで、学習効率を飛躍的に高めた(既存手法の約12倍)。

所感

「個々のタスクに特化したヘッダを学習するのでなく、タスクの汎用性を自然言語に吸収させて統一的なタスクとして学習する」というGPTと同様のコンセプトがとられている。

例えば、分類タスクの場合、"A photo of a (class name)"というテキストのclass nameの部分に全クラス名を当てはめ、それぞれのテキスト埋め込みに対して、画像の埋め込みとの類似度をクラスの予測スコアとする。この方法であれば学習時にクラスラベルの情報を固定的に与える教師あり学習と異なり、「クラス名が持つ意味」を元に画像とクラスを紐づけることが可能となる。

参考文献

このスクラップは2023/11/05にクローズされました