🖼️

NLPタスクを視覚で強化するLLM論文

2024/02/26に公開

LLM

大規模言語モデル

idea

はじめに

ChatGPTを使用していると、普通はそんな判断しないよねという回答が返ってくることがあります。
これは、LLMはテキストのみでトレーニングされており、物のサイズ感等、人ならば見て一瞬で理解できる視覚的な常識が欠如していることが一つの要因であると考えられます。
このような課題に対処するためのアプローチに興味があり、調査したので、見つけた論文をリストアップします。

論文

サーベイ的論文?

そもそも、画像とテキストを一緒に学習させることで、視覚的な常識が加味された表現が得られるのでしょうか？下記の論文によると、あまり有効ではないようです。

Does Vision-and-Language Pretraining Improve Lexical Grounding?
https://arxiv.org/abs/2109.10246

一方で、微調整中にテキストデータ、画像-テキストデータをブレンドして学習させることで、NLPタスクの性能劣化が改善されるようです。

VILA: On Pre-training for Visual Language Models
https://arxiv.org/abs/2312.07533

事前学習

画像とテキストの両方で事前学習するアプローチです。

SimVLM: Simple Visual Language Model Pretraining with Weak Supervision
https://arxiv.org/abs/2108.10904
Visually-Augmented Language Modeling
https://arxiv.org/abs/2205.10178

事後学習

Visually-augmented pretrained language models for NLP tasks without images
https://arxiv.org/abs/2212.07937

画像拡張

人は、文章を読むときでも、言葉に対応するイメージを自然と想像するようで、これは私の感覚とも合致します。
これを実践したアプローチであると理解しています。

以下のリポジトリが詳しそうです。

最後に

視覚言語タスクの性能改善を主とした論文が多く、探すのに骨が折れました…。
何かのお役に立てば幸いです。

はじめに

論文

サーベイ的論文?

事前学習

事後学習

画像拡張

最後に

Discussion