Closed20

Let's Think Outside the Box: Exploring Leap-of-Thought in Large Language Models with Creative Humor

hellohazimehellohazime

1. 論文の概要

この論文は、大規模言語モデル (LLM) の飛躍的思考 (Leap-of-Thought, LoT)探索的自己改良という2つの段階から成り立つ。

2. 先行研究との比較

従来のLLMは、段階的思考 (Chain-of-Thought, CoT)、つまり論理的なステップを踏んで推論する能力の向上に力を入れてた。でもこの論文は、CoTとは違う**飛躍的思考 (LoT)**能力に注目して、LLMが既存の枠にとらわれず、もっと自由で創造的な発想を生み出すことを目指したんだ。LoTは、CoTじゃ解決が難しい、創造性やユーモアが必要な課題で特に重要になる。

3. 技術・手法の核心

CLoTの核心は、連想的教示チューニングと探索的自己改良の2段階にある。

連想的教示チューニングは、「大喜利」ゲームのデータを使って、LLMに連想的生成と連想的弁別の能力を学ばせる。これは、一見関係なさそうな概念同士をつなげて、面白い回答を作り出すことが狙い。

探索的自己改良は、LLM自身に新しいLoTデータを作らせて、その中から良いデータを選んで学習を繰り返し、LoT能力を強くする仕組み。

4. 有効性の検証方法

論文では、Qwen-VLというモデルをベースに、CLoTを使ったQwen-VL+CLoTを作って、その効果を確かめた。テストには、選択問題の正解率とか、ランキング問題のNDCG、ユーザーの創造性評価、クラウド推測ゲーム (CGG) の正解率、発散連想課題 (DAT) の平均意味距離 (ASD) なんかを使った。結果、Qwen-VL+CLoTは他のモデルと比べてLoT能力が断然アップ。

5. 議論はありますかね?

CLoTは1回の自己改良でいい効果が出るけど、何回も繰り返しても性能はあんまり上がらないことが分かった。これは、LoTデータと連想条件の種類が限られてるのが原因。これからは、この多様性をどう増やすかが課題。

hellohazimehellohazime

author: Shanshan Zhong, Zhongzhan Huang, Shanghua Gao, Wushao Wen, Liang Lin, Marinka Zitnik, Pan Zhou

hellohazimehellohazime
  1. 次に読むべき論文

    "Qwen-VL" (Jinze Bai他, 2023): CLoTのベースになったQwen-VLの論文

    "Chain-of-thought prompting" (Jason Wei他, 2022): LLMの段階的思考の研究

    "Leap-of-thought" (Alon Talmor他, 2020): 飛躍的思考を最初に提案した論文
hellohazimehellohazime

一見上手にできていても決まったパターンのお笑いしか出せなくなる
Napkinとかと同じだな

抽象度を高めて多様な回答を出すために課題を強い論理的飛躍と定義する。
あえてこういう形で定義すると色々できることがある。

hellohazimehellohazime

型化、テンプレート化が本当にできる&それでずっと事足りるならモデルを構築できるし
多少の追加変更ならFTでもいいんだが,,,

ってなるわけか

hellohazimehellohazime

連想を識別する能力の訓練

お題に対してどれがLeapしてるかを選択肢で学習させる

パターン1

  • テキスト + Imageで そのまま画像と、それに対しての答えを学習をさせる
  • 上記に加えて、どこに着目したボケかも追記しておく

パターン2

  • 選択肢を用意して その中から答えを選んだテキストを用意する
  • 上記に加えて、選択肢それぞれにランクをつける 選択肢Aならボケ度5 選択肢Bはボケ度4
hellohazimehellohazime

データ量

全体13万件

I2T (Image to Text): 89,744 件

T2T (Text to Text): 34,072 件

IT2T (Image&Text to Text): 10,332 件

hellohazimehellohazime

上記のデータで学習してから、お題からボケを生成
そのボケについてランクづけを自分でさせてSelfRefinmentしている

hellohazimehellohazime

破壊的忘却については55万件のデータがあって多様性があったから
だいじょうぶでしたー

ふむ? 13万もよくアノテーションしたな

hellohazimehellohazime

評価方法

以下の論文を参考にやりやした!
https://arxiv.org/abs/2209.06293

選択問題を溶かす
mTn = m この選択肢からn子の正解を選択
2T1: 人間の面白回答とBLIP2によるキャプション 
    ↑Leapしていないデータ+OOigirでちょっとLeapしてる?
3T1: 2T1に関係ない画像のキャプションを追加して評価する
   ↑???? いや全然わからん、Leapどころか文脈無視じゃん

4T1: 3T1 にQwen-14Bで書き換えることで Leapの度合いがさがったデータを作る

5T2: 4T1に人間の回答を追加して2個選ぶ

え?どゆこと???

hellohazimehellohazime

OOgiri-go のランキングを解けるかどうか、はまあわかりやすい
順序が正しきゃいいんだもんな

hellohazimehellohazime

あぁ、ランキングを当てるやつはGPT4やminiGPTでも十分解けちゃうから
さっきの mTnの評価指標作ったのか

hellohazimehellohazime

GPT4vはLeap能力がゴミなので
論理的思考力ではなくLeap能力が必要なタスクはモデル
作った方がいいよねーみたいな話

hellohazimehellohazime

大喜利以外の評価

関連性がない名詞を並べて、一番遠い名詞のペアを出す(DAT)

雲の画像を出して、何に似ているか当てさせるゲーム(CGG)

hellohazimehellohazime

Stage1:強い条件で学習するより弱い条件で学習した方が性能が良い
Stage2:自家中毒学習 は一度でも2度でも変化がないので3回4回と複数回やる意味はない

にしても0から始まらない図が多いな

このスクラップは1ヶ月前にクローズされました