🔛

Visual Structures Helps Visual Reasoning!

に公開

初めに

この論文今夜知り、シンプルだしおもろいから今夜記事書きたいと思った。一晩挑戦
斜めよみした自分の理解で書く

どんなもの

VLMの画像タスク精度を上げた!
画像に補助線いれて、それを利用した処理にするプロンプトを与えるだけ! めっちゃシンプル

先行研究(ほか)と比べてどこがすごいの?

FT無し、簡単な前処理とプロンプトだけ
人間の認知でも関係するBinding問題を緩和した

技術や手法の"キモ"はどこにある?

画像に補助線いれて、それを利用した処理をプロンプトで与えるだけ!
CoTと同様の効果もあるみたい

以下の4タスクで効果あり
a)検索
b)描写(空間関係)
c)数え上げ
d)空間関係理解

実験結果

検索 : まあ大体良くなっている

思ったこと

  • 画像加工とそれに対応したプロンプトをAI,エージェントで強化学習とかも使ってやったら精度バク上がりする? 論文に書いてあるかも、全部読んでないからわからんけど
  • sakana.aiのCTMで時間ごとに注意点変わっていたが、これをやってどうなるのか見たい!
  • シンプルだし、アイデアが波及するいい論文だと思った!

あとがき

記事よかったら、いいね♡ 押してね!

Discussion