Let's Think Outside the Box: Exploring Leap-of-Thought in Large Language Models with Creative Humor
1. 論文の概要
この論文は、大規模言語モデル (LLM) の飛躍的思考 (Leap-of-Thought, LoT)探索的自己改良という2つの段階から成り立つ。
2. 先行研究との比較
従来のLLMは、段階的思考 (Chain-of-Thought, CoT)、つまり論理的なステップを踏んで推論する能力の向上に力を入れてた。でもこの論文は、CoTとは違う**飛躍的思考 (LoT)**能力に注目して、LLMが既存の枠にとらわれず、もっと自由で創造的な発想を生み出すことを目指したんだ。LoTは、CoTじゃ解決が難しい、創造性やユーモアが必要な課題で特に重要になる。
3. 技術・手法の核心
CLoTの核心は、連想的教示チューニングと探索的自己改良の2段階にある。
●
連想的教示チューニングは、「大喜利」ゲームのデータを使って、LLMに連想的生成と連想的弁別の能力を学ばせる。これは、一見関係なさそうな概念同士をつなげて、面白い回答を作り出すことが狙い。
●
探索的自己改良は、LLM自身に新しいLoTデータを作らせて、その中から良いデータを選んで学習を繰り返し、LoT能力を強くする仕組み。
4. 有効性の検証方法
論文では、Qwen-VLというモデルをベースに、CLoTを使ったQwen-VL+CLoTを作って、その効果を確かめた。テストには、選択問題の正解率とか、ランキング問題のNDCG、ユーザーの創造性評価、クラウド推測ゲーム (CGG) の正解率、発散連想課題 (DAT) の平均意味距離 (ASD) なんかを使った。結果、Qwen-VL+CLoTは他のモデルと比べてLoT能力が断然アップ。
5. 議論はありますかね?
CLoTは1回の自己改良でいい効果が出るけど、何回も繰り返しても性能はあんまり上がらないことが分かった。これは、LoTデータと連想条件の種類が限られてるのが原因。これからは、この多様性をどう増やすかが課題。
元論文
author: Shanshan Zhong, Zhongzhan Huang, Shanghua Gao, Wushao Wen, Liang Lin, Marinka Zitnik, Pan Zhou
- 次に読むべき論文
●
"Qwen-VL" (Jinze Bai他, 2023): CLoTのベースになったQwen-VLの論文
●
"Chain-of-thought prompting" (Jason Wei他, 2022): LLMの段階的思考の研究
●
"Leap-of-thought" (Alon Talmor他, 2020): 飛躍的思考を最初に提案した論文
"Leap-of-thought" (Alon Talmor他, 2020): 飛躍的思考を最初に提案した論文
Chain-of-thought prompting (Jason Wei他, 2022): LLMの段階的思考の研究
Qwen-VL (Jinze Bai他, 2023): CLoTのベースになったQwen-VLの論文
お笑いは定義が難しいので評価関数が作れない
一見上手にできていても決まったパターンのお笑いしか出せなくなる
Napkinとかと同じだな
抽象度を高めて多様な回答を出すために課題を強い論理的飛躍と定義する。
あえてこういう形で定義すると色々できることがある。
型化、テンプレート化が本当にできる&それでずっと事足りるならモデルを構築できるし
多少の追加変更ならFTでもいいんだが,,,
ってなるわけか
連想を識別する能力の訓練
お題に対してどれがLeapしてるかを選択肢で学習させる
パターン1
- テキスト + Imageで そのまま画像と、それに対しての答えを学習をさせる
- 上記に加えて、どこに着目したボケかも追記しておく
パターン2
- 選択肢を用意して その中から答えを選んだテキストを用意する
- 上記に加えて、選択肢それぞれにランクをつける 選択肢Aならボケ度5 選択肢Bはボケ度4
データ量
全体13万件
●
I2T (Image to Text): 89,744 件
●
T2T (Text to Text): 34,072 件
●
IT2T (Image&Text to Text): 10,332 件
上記のデータで学習してから、お題からボケを生成
そのボケについてランクづけを自分でさせてSelfRefinmentしている
破壊的忘却については55万件のデータがあって多様性があったから
だいじょうぶでしたー
ふむ? 13万もよくアノテーションしたな
評価方法
以下の論文を参考にやりやした!
選択問題を溶かす
mTn = m この選択肢からn子の正解を選択
2T1: 人間の面白回答とBLIP2によるキャプション
↑Leapしていないデータ+OOigirでちょっとLeapしてる?
3T1: 2T1に関係ない画像のキャプションを追加して評価する
↑???? いや全然わからん、Leapどころか文脈無視じゃん
4T1: 3T1 にQwen-14Bで書き換えることで Leapの度合いがさがったデータを作る
5T2: 4T1に人間の回答を追加して2個選ぶ
え?どゆこと???
OOgiri-go のランキングを解けるかどうか、はまあわかりやすい
順序が正しきゃいいんだもんな
NDCGがわからん、あとで見る
あぁ、ランキングを当てるやつはGPT4やminiGPTでも十分解けちゃうから
さっきの mTnの評価指標作ったのか
GPT4vはLeap能力がゴミなので
論理的思考力ではなくLeap能力が必要なタスクはモデル
作った方がいいよねーみたいな話
大喜利以外の評価
関連性がない名詞を並べて、一番遠い名詞のペアを出す(DAT)
雲の画像を出して、何に似ているか当てさせるゲーム(CGG)
CGG = CloudGuesingGame
DAT = Divergent Association Task
Stage1:強い条件で学習するより弱い条件で学習した方が性能が良い
Stage2:自家中毒学習 は一度でも2度でも変化がないので3回4回と複数回やる意味はない
にしても0から始まらない図が多いな