🌟

【論文紹介】LLMは斬新な研究アイデアを出せるのか?

2024/09/27に公開

こんにちは。ZENKIGENデータサイエンスチームの勝田です。今回はタイトルの通り”Can LLMs Generate Novel Research Ideas?”という刺激的なタイトルの論文紹介をしていきます。元ポスドクとしては非常に気になる話題です。
チームでXアカウントを運用しており、AIに関する情報を発信していますのでご興味あれば覗いてみてください。

概要

  • LLMが専門家レベルのアイデア生成できるかの定量的評価はこれまでなかった。
  • そこで、人間の専門家(100人以上のNLP研究者)との定量的な比較を実施した。
  • 結果、LLMが生成したアイデアは人間の専門家のアイデアよりも斬新であると判断された。
  • 課題もあった。実現可能性が弱いアイデアが多い、LLMの自己評価の失敗、多様性の欠如など。
  • AIが得意とする創造性に人間の実現可能性の判断を加えるなど、人とAIが協力することでより良い研究になる可能性を示唆。

ん?AIが得意とする創造性?「AIは真似しかできない、創造性こそ人間の本質だ」と2010年代は言われてましたが今は昔といった感じでしょうか。以下でもう少し詳しく見てみましょう。

問題設定

実際にどのように人間とLLMのアイデアを比較したのか、少し詳しく説明します。

アイデア生成

7つのNLP研究テーマ(バイアス、コーディング、安全性、多言語性、事実性、数学、不確実性)においてプロジェクト提案のアイデア生成を行った。アイデアは以下の3種類。

  • 人間のアイデア(49個)
  • AI生成アイデア(49個)
    • AIが大量生成したアイデアを、AI自身で評価して上位49個を採用
  • AI生成アイデア x 人間評価(49個)
    • AIが大量生成したアイデアを、人間が評価して上位49個を採用

以下がプロジェクト提案のテンプレートとなる。人間とAIどちらもこのテンプレートに従いアイデアを生成した。

1. タイトル
  論文タイトルとして使用する主要な研究課題を簡潔に述べたもの。
2. 問題の定義
  なぜその問題が興味深く、重要なのかを明確に説明する。
3. 動機
  既存手法ではなぜその問題を解決できないのかを説明、提案手法がベースライン手法より優れている理由を書く。
4. 提案手法
  提案手法を説明し、すべての重要なステップを詳述する。
5. 実験計画のステップ毎の詳細
  実験の各ステップを分解し、実行可能であることを確認。
  使用するデータセット、モデル、評価基準などを詳述。
  プロンプトを使用する場合、各ステップの具体的なプロンプト例を提示。
6. テストケース
  少なくとも以下の2つの具体例を示す。
  ・最初の例では、ベースライン手法がテストケースで失敗する事を示す。ベースラインが複数ある場合は、それぞれの例を提示。
  ・2つ目の例では、提案手法がテストケースで成功する様子を示す。各テストケースには、入力(テスト例と完全なプロンプト)および期待される出力を含める。提案プロンプトの出力がなぜ優れているのか説明。
7. バックアッププラン
  提案手法が成功基準を満たさなかった場合の代替案を複数提案。

比較方法

AIと人間によるアイデアをブラインドレビューで比較。 つまり評価者はどちらのアイデアがAIで生成されたものか知らずに評価した。AI生成アイデアのスタイルを人間の書き方に似せる調整を行うなど、どちらが作成したアイデアかわからないように慎重に設計されているようです。

アイデアは以下の4つの評価基準に基づいて評価。

  • 新規性(Novelty): アイデアがどれだけ革新的か。
  • 興奮度(Excitement): アイデアがどれだけ興味を引くか、もしくはインパクトを与えるか。
  • 実現可能性(Feasibility): アイデアが現実的に実行できそうか。
  • 効果の期待値(Effectiveness): アイデアが実際の研究コミュニティや技術的な進歩に貢献しそうか。

これらに加えて総合評価(Overall Score)も実施。

実験結果

以下の図1の結果となりました。

  • 新規性
    • 「AI生成アイデア」が、人間のアイデアよりも統計的に有意に高いスコアを獲得した。
    • 「AIアイデア x 人間の再評価」はさらに高い評価を獲得。
  • 実現可能性
    • 若干だが、人間のアイデアの方が高く評価された。
  • 興奮度、効果期待値
    • AI生成アイデアの方が高いスコアを獲得したが、新規性ほどの強い有意差はなかった。

図1. 論文Figure2より。評価軸と総合評価の比較。赤いアスタリスクは、人間アイデアよりも統計的に有意にスコアが高いことを示している。

アイデア生成AI

さて実験結果がわかったところで、どのようにLLMにアイデア生成させたか気になると思いますので説明します。以下の3ステップで生成されました。基本的には人間の研究手法を真似ているように見えます。

Step1. RAGによる論文抽出

  • 与えられた研究テーマに関連する論文をRAGで取得。適宜、Semantic Scholar APIをfunction calling。
  • LLMを使って、次の3つの基準に基づいて取得論文をスコアリングして100本程度の論文を選んだ。
    • 論文が指定されたテーマに直接関連していること。
    • 論文が計算実験を含む実証的なものであること。
    • 論文が興味深く、新しいプロジェクトのインスピレーションとなる可能性があること。
  • LLMにはclaude-3-5-sonnet-20240620を利用。

Step2. アイデア生成

  • Step2-1. アイデアの大量生成
    • 各テーマについて4000個のシードアイデアをLLMで生成。
    • 生成プロンプトには、6つのデモンストレーション(優れた既存論文の要約)をfew-shotで入れている。
  • Step2-2. アイデアの重複除去
    • 生成された4000個のアイデアのうち、実際に新規であるかを確認するために、Sentence-Transformersのall-MiniLM-L6-v2を使用して各アイデアをエンコード、コサイン類似度でアイデア同士の重複を検出。
    • コサイン類似度が0.8以上のアイデアは除去。
    • 生成されたアイデアのうち約5%が重複しないユニークなアイデアだった。

Step3. アイデアのランク付け

生成されたアイデアを評価し、最良のアイデアを選別するために、LLMでアイデアのランク付けを行った。

  • Step3-1. ランク付けLLMの学習
    • ICLR 2024年の論文データベースから、1200件のLLM関連論文を収集。
    • レビュー評価スコアと受理結果を使ってLLMを学習。
  • Step3-2. ランク付け
    • Step2のLLM生成アイデアを二つ選んで比較する相対評価でランク付けした。
    • LLMが各アイデアのペアを比較には、スイス式トーナメント方式を採用。
  • Option: 人間による再ランク付け
    • 論文の著者の一人がLLM生成アイデアを手動で再評価したバージョンも作った。
    • これが実験結果の「AIアイデア x 人間の再評価」のアイデア。

LLMの課題

新規性において人間によりLLMの方がスコアが良い、というびっくり?な結果が得られたわけですがLLMの課題についても見ていきましょう。

課題1: 多様性の欠如

LLMは大量のアイデアを生成できるものの、アイデアの多様性に限界があった。具体的には、生成されたアイデアが重複しがちであり、時間が経つにつれて新しいアイデアを生成する能力が低下した。研究者が4000個のアイデアを生成した際、重複のないアイデアは約5%だった(図2参照)。

図2. 論文Figure4より。AI生成アイデアの重複度の測定。左図:生成アイデアが重複していない割合。右図:累積された重複していないアイデア数。データポイントは、全てのトピックにわたって平均化されている。

課題2: アイデア評価における信頼性の欠如

多くの研究が、LLMが生成したアイデアを自動的に評価する方法を試みているが、人間が判断するようにはアイデアを判断できていない。特にトップランクのアイデアを選び出す際の一致率が低いことが問題として指摘されている。
AIと人間の評価の一致度が最終的に人間同士の一致度に匹敵したとしても慎重に評価する必要がある。偽相関に頼ることで一貫性を保っている可能性があり、これがバイアスにつながる恐れもあるためだ。
本実験においては、人間による評価を入れることでより良い研究テーマを選ぶことができた。

感想

  • LLMの「大量にアイデアを生成→その中から良いものを選ぶ」という手法は面白いですね。
    • 天才的・斬新な仕事・作品を作り続ける人たちは、その何倍もの駄作を作ってる、と言われており、この手法をLLM上で再現したものだと思います。
    • 違いは、機械なので、時間制限や疲れなどの制約がないので「駄作」を大量に作れることですね。
    • たしかに多量の駄作を「効率的に」生み出せるのなら、より良いアイデアが出る可能性が高まる、というロジックには納得です。
  • 「既存手法を元に発展させていく系」の研究については、どんどんLLMを活用するのが良いと思いました。
  • 一方で、アートに近いような「これまでにない組み合わせ」はぜひ人間の天才たちに頑張って欲しい領域。
  • いずれにせよ(将来的にはAIが実行するにしても)限られた資源の中でどのアイデアを採用するかは人間が最終判断を持つと思います。見極め力はこれからますます大事になりそうですね。
  • 詳細な実験方法など論文に書いてますので、気になる方はぜひ原著にあたってください。

お知らせ

少しでも弊社にご興味を持っていただけた方は、お気軽にご連絡頂けますと幸いです。まずはカジュアルにお話を、という形でも、副業を検討したいという形でも歓迎しています。

https://hrmos.co/pages/zenkigen/jobs?jobType=FULL
https://speakerdeck.com/zenkigenforrecruit/detailed-version-recruitment-materials-for-data-scientists

ZENKIGENテックブログ

Discussion