Closed2022/11/09にクローズ2

マルチモーダル学習関連の周辺知識Zapping - ボケてコンペ1位解法より

bilzard

概要

Nishika主催のコンペ「ボケ判定AIを作ろう！ (ボケてコンペ＃1)」^[1]の1位解法^[2]が個人的に興味深かったので、解法で紹介されている周辺的な知識をZappingしてみた。

画像特徴抽出器

画像特徴抽出器として以下の2つを用いている。

画像タスク専用のエンコーダ
マルチモーダル事前学習による画像エンコーダ

後者では以下の論文で提案されたCLIPベースのモデルを採用している。

The Unreasonable Effectiveness of CLIP Features for Image Captioning: An Experimental Analysis

この論文の結論を簡単にいうと、「イメージキャプショニングのようなマルチモーダルなタスクにおいてCLIPベースのモデルが有望である」ということ。

CLIPとは膨大な数の画像-キャプションのペアから事前学習する学習パラダイムのこと。

論文ではアーキテクチャとして図のようなエンコーダ-デコーダモデルを用い、エンコーダに従来手法のオブジェクト検出タスクで事前学習したバックボーン(DINO/ViT)を用いる場合と、CLIPにより事前学習したバックボーン(ResNet/ViT)の場合で比較し、後者の方がCIDEr指標（キャプションの性能を表す指標の一つ）において優位となる結果を提示した。

本コンペはまさにマルチモーダルなタスクであるので、画像-テキストの組み合わせで表現を学習したCLIPベースのエンコーダの方が、マルチモーダルな推論に有利な特徴埋め込みの生成に寄与したのかもしれない。

日本語CLOOBモデルの利用

rinna社が公開している日本語CLOOBモデル^[3]も利用している。
CLOOBというのは2021に提案された論文^[4]で、CLIPを上回る性能を報告している。

脚注

bilzard

画像特徴とテキスト特徴の合成

画像特徴とテキスト特徴の合成には、RINA^[1]という著者自身が提案したアーキテクチャを採用したとのこと。このモデルの特徴は、「テキスト特徴を画像特徴によって補正する」ことであり、「画像特徴よりもテキスト特徴の方がターゲット指標に寄与が大きい」というコンペタスクの特性とマッチしていたのかもしれない。

脚注

RINA:マルチモーダル情報を利用したキャラクターの感情推定 ↩︎

このスクラップは2022/11/09にクローズされました