🖼️
NLPタスクを視覚で強化するLLM論文
はじめに
ChatGPTを使用していると、普通はそんな判断しないよねという回答が返ってくることがあります。
これは、LLMはテキストのみでトレーニングされており、物のサイズ感等、人ならば見て一瞬で理解できる視覚的な常識が欠如していることが一つの要因であると考えられます。
このような課題に対処するためのアプローチに興味があり、調査したので、見つけた論文をリストアップします。
論文
サーベイ的論文?
そもそも、画像とテキストを一緒に学習させることで、視覚的な常識が加味された表現が得られるのでしょうか?下記の論文によると、あまり有効ではないようです。
- Does Vision-and-Language Pretraining Improve Lexical Grounding?
https://arxiv.org/abs/2109.10246
一方で、微調整中にテキストデータ、画像-テキストデータをブレンドして学習させることで、NLPタスクの性能劣化が改善されるようです。
- VILA: On Pre-training for Visual Language Models
https://arxiv.org/abs/2312.07533
事前学習
画像とテキストの両方で事前学習するアプローチです。
-
SimVLM: Simple Visual Language Model Pretraining with Weak Supervision
https://arxiv.org/abs/2108.10904 -
Visually-Augmented Language Modeling
https://arxiv.org/abs/2205.10178
事後学習
- Visually-augmented pretrained language models for NLP tasks without images
https://arxiv.org/abs/2212.07937
画像拡張
人は、文章を読むときでも、言葉に対応するイメージを自然と想像するようで、これは私の感覚とも合致します。
これを実践したアプローチであると理解しています。
以下のリポジトリが詳しそうです。
最後に
視覚言語タスクの性能改善を主とした論文が多く、探すのに骨が折れました…。
何かのお役に立てば幸いです。
Discussion