Closed2
マルチモーダル学習関連の周辺知識Zapping - ボケてコンペ1位解法より
概要
Nishika主催のコンペ「ボケ判定AIを作ろう! (ボケてコンペ #1)」[1]の1位解法[2]が個人的に興味深かったので、解法で紹介されている周辺的な知識をZappingしてみた。
画像特徴抽出器
画像特徴抽出器として以下の2つを用いている。
- 画像タスク専用のエンコーダ
- マルチモーダル事前学習による画像エンコーダ
後者では以下の論文で提案されたCLIPベースのモデルを採用している。
The Unreasonable Effectiveness of CLIP Features for Image Captioning: An Experimental Analysis
この論文の結論を簡単にいうと、「イメージキャプショニングのようなマルチモーダルなタスクにおいてCLIPベースのモデルが有望である」ということ。
CLIPとは膨大な数の画像-キャプションのペアから事前学習する学習パラダイムのこと。
論文ではアーキテクチャとして図のようなエンコーダ-デコーダモデルを用い、エンコーダに従来手法のオブジェクト検出タスクで事前学習したバックボーン(DINO/ViT)を用いる場合と、CLIPにより事前学習したバックボーン(ResNet/ViT)の場合で比較し、後者の方がCIDEr指標(キャプションの性能を表す指標の一つ)において優位となる結果を提示した。
本コンペはまさにマルチモーダルなタスクであるので、画像-テキストの組み合わせで表現を学習したCLIPベースのエンコーダの方が、マルチモーダルな推論に有利な特徴埋め込みの生成に寄与したのかもしれない。
日本語CLOOBモデルの利用
rinna社が公開している日本語CLOOBモデル[3]も利用している。
CLOOBというのは2021に提案された論文[4]で、CLIPを上回る性能を報告している。
このスクラップは2022/11/09にクローズされました