🖼️

NLPタスクを視覚で強化するLLM論文

2024/02/26に公開

はじめに

ChatGPTを使用していると、普通はそんな判断しないよねという回答が返ってくることがあります。
これは、LLMはテキストのみでトレーニングされており、物のサイズ感等、人ならば見て一瞬で理解できる視覚的な常識が欠如していることが一つの要因であると考えられます。
このような課題に対処するためのアプローチに興味があり、調査したので、見つけた論文をリストアップします。

論文

サーベイ的論文?

そもそも、画像とテキストを一緒に学習させることで、視覚的な常識が加味された表現が得られるのでしょうか?下記の論文によると、あまり有効ではないようです。

一方で、微調整中にテキストデータ、画像-テキストデータをブレンドして学習させることで、NLPタスクの性能劣化が改善されるようです。

事前学習

画像とテキストの両方で事前学習するアプローチです。

事後学習

画像拡張

人は、文章を読むときでも、言葉に対応するイメージを自然と想像するようで、これは私の感覚とも合致します。
これを実践したアプローチであると理解しています。

以下のリポジトリが詳しそうです。
https://github.com/kassy11/Awesome_Visually-Augmented_NLP?tab=readme-ov-file

最後に

視覚言語タスクの性能改善を主とした論文が多く、探すのに骨が折れました…。
何かのお役に立てば幸いです。

Discussion