【論文紹介】LLMはなぜ画像を見ずに“見る力”を持つのか?
今回の記事では、Meta Super intelligence Labの「LLMは画像を見たことがないのに、なぜある程度視覚的な推論が可能なのか?」を分析する論文について、簡単にまとめました。
本編
一言でいうと
大規模言語モデル(LLM)は、テキストだけで学習されているにもかかわらず、視覚に関する深い知識を獲得しているように見えます。様々な実験・分析の結果、この視覚に関する知識は、次の2つに分解されることを明らかにしました。
-
知覚知識 (perception prior)
- 色、形、サイズ、位置などの物体や属性を正しく認識するための知識
- 例:「空は青い」「バナナは黄色い」といった、基本的な物理的特徴の認識
- 多様なテキストデータの学習により獲得されるが、データを増やしても精度向上は限定的
- LLMで獲得した知識よりも、画像エンコーダの学習が重要
- 色、形、サイズ、位置などの物体や属性を正しく認識するための知識
-
推論知識 (reasoning prior)
- 空間的関係や論理的な推論に関する知識
- 例:「猫は犬より小さい」「物体Aは物体Bの上にある」といった比較・関係性
- 推論志向のテキストデータ (コード、数学、論文など) を学習することで獲得され、データを増やすと着実な精度向上が期待できる
- LLMで獲得した知識が、画像理解タスクへと活かされやすい
- 空間的関係や論理的な推論に関する知識
概要
画像認識では犬の画像を学習データとして与えることで、犬とはどのような見た目なのかという情報を学び、視覚的な知識を獲得しています。一方でLLMは膨大なテキストだけで訓練されているにもかかわらず、視覚的な知識を獲得しているように見えます。
例えば、LLMに自転車を模した図形をHTML+CSSで書かせると、自転車のような形状を含むコードを生成することができます。あるいは、「バナナは黄色い」や「猫は犬より小さい」といった、視覚的な情報に関する質問応答をすることができます。
LLMが獲得している視覚的な知識はどんな性質なのか、どのようにして獲得されているのかは大変気になります。
実験内容
下記4種類の画像理解タスクを設定して、事前学習に用いるテキストのカテゴリが各タスクに与える影響を分析します。
- General: 見たものを理解して、それを一般常識と結びつけられるかどうかを調べます。複雑な推論力よりも、基本的な見てわかる力と常識の活用が重視されます。
- Knowledge: 視覚的な情報を現実世界の知識と結びつけ、複数のステップを踏んで科学的・数学的な複雑な問題を解けるかを評価します。
- OCR & Chart VQA: 細かい視覚的認識に注目し、画像の中に含まれる大量の文字情報や構造化データを正確に読み取り、理解できるかどうかを評価します。
- Vision-Centric: 抽象的な視覚推論や粗い知覚能力を調べ、空間や3Dの理解、物体の数え上げ、IQテストのような課題に取り組めるかを評価します。
上のグラフを見ると、学習するテキストデータのカテゴリに依存して、各タスクの性能が大きく異なることが分かります。特に右下のVision-Centricタスクは推論系のデータ(コード、数学、学術など)と強く関連しています。すなわち、特定カテゴリのテキストデータを学習すると、LLMにおける特定の視覚能力を強化すると言えます。
では、推論系のデータを大量に学習させればよいのかというと、必ずしもそうではありません。
推論系のデータ(コード、数学、学術など)と、知覚系のデータ(物体や人、色などの見た目に関するテキスト)の割合を変えた場合のタスク精度を計測します。
左側のグラフを見ると、推論系のデータ割合を増やすと着実に精度が上がっていき、75%の割合でピークになっています。右側のグラフでは、知覚系のデータを少し混ぜると瞬時に精度は上がりますが、25%をピークとしてその後は鈍化していきます。
つまり知覚系のデータは、少量含めることは重要なものの、それ以上増やしても得られる効果は薄く、バランスが重要であることが分かります。
さて、視覚に関する知識とは、どのようなものでしょうか。それを調べるために、先ほどの4タスクに関するこれまでの各実験から得られた性能データを集約して、相関行列を算出します。
グラフを見ると、視覚に関する知識の内部構造が少なくとも2種類に分かれる可能性を示唆しています。
GeneralとOCR性能の間には中程度の相関があり、これは知覚知識を示すと考えられます。
これらのタスクは複雑な推論よりも、見た目を正確に処理する能力に依存しているためです。
一方、KnowledgeとVision-Centricタスクの間にも中程度の相関がみられます。
例えばKnowledgeでは複雑な科学的・数学的問題を解くために多段階推論が必要であったり、Vision-Centricでは物体カウント、対応関係の認識などに推論を必要とします。そのため、これらタスクでは単純な知覚を超えた推論を必要とするため、推論知識の存在を示すと考えられます。
では、これら知覚知識、推論知識はどこから得られるのかを考えます。1つ目、2つ目のグラフで示す通り、推論知識については推論系のデータから形成され、その割合を増やすことで強化できるといえます。
一方、知覚知識については、特定のデータからではなく様々なデータから形成されていると考えられます。1つ目のグラフでは、GeneralタスクとOCRタスクは、Webクロールデータという極めて一般的なデータを学習した場合に最も精度が高くなっています。知覚知識は特定カテゴリのデータからではなく、言語の多様性そのものから現れる可能性を示すと考えられます。
知覚知識、推論知識はどこから得られるのか、さらに深掘りをします。
一般的にLLMによる画像系タスクは、「テキストデータから学習されたLLM」+「画像を用いて学習された画像エンコーダ」の組み合わせによって行われます。画像を画像エンコーダに入力して得られたトークンをLLMに入力し、結果を得るわけです。
知覚知識と推論知識が、LLMの知識から来ているのか、画像エンコーダで獲得されているのかを推測するために、画像エンコーダの学習データについて、知覚系のデータ・推論系のデータをそれぞれ減らした場合の精度の変化を分析します。
知覚系のデータを減らすと、知覚タスク (GeneralとOCR) の精度が大幅に劣化しますが、推論タスク (KnowledgeとVision-Centric) の劣化は中程度です。一方、推論系のデータを減らすと、知覚タスクでの劣化はわずかであり、推論タスクでの劣化も中程度に収まっています。
以上をまとめると、下記のことが推測されます。
- LLMはテキストデータから推論知識を獲得しており、これは主に推論を必要とする画像理解タスクの精度を向上させる
- 知覚知識は画像エンコーダに依存し、性能向上のためにはLLMというより画像エンコーダに対する改善が必要
まとめ
これまでは「画像+テキストを大量に集めれば強いモデルになる」と漠然と考えられてきたと思います。本論文は、推論系のテキスト(コード・数学・学術)を多く含めることがLLMの推論能力を育てることを示しており、コードや数学データを多めに取り入れることで、画像推論能力を安く強化することが期待できます。
一方で、知覚(色や形の説明など)能力に関してはテキストを一定以上増やしても効果は薄く、画像を用いたエンコーダの学習が重要となります。無駄にテキストデータを増やす必要がなく、限られたコストで効果的なデータ収集・選別を行う指針にもなります。
論文には、他にもより深いメカニズムの分析・仮説立案や、さらなる大規模モデルでの実験も記載されているので、興味がある方はぜひご覧ください。
Discussion