Deep Ideation解説:LLMが“研究するAI”になる日
はじめに
ルミナイR&Dチームの宮脇彰梧です。
本記事では、Tsinghua大学, Xidian大学, Zhongguancun大学院発の論文「Deep Ideation」(2025, arXiv:2511.02238) を題材に、「LLMが科学的アイデアを“創造”する」時代の幕開けについて解説と検証を行います。
🏷️ 概要
これまでの生成AIは「知識の要約者」にとどまっていました。
しかし、**「Deep Ideation」**はその次の段階──「LLM自身が“新しい研究アイデアを発見・評価・進化させる”」──という試みに挑んだ論文です。
本稿では以下を中心に紹介します:
- 論文の技術構成(Scientific Concept Network × LLMエージェント)
- その革新性と実験結果の正確な要約
- 筆者による簡易再現実験(Python実装)
- 技術的考察と応用可能性
1. なぜこのテーマを選んだのか
生成AIの価値は「答えるAI」から「問いを見つけるAI」へと進化しています。
この論文はまさにその転換点にあり、LLMが研究者のブレインパートナーになる未来像を提示しました。
特に印象的なのは、「LLMが論文群から構築された科学概念ネットワーク(Concept Graph)を自ら探索し、まだ繋がっていない知識を発見する」点。
これは人間の「アブダクション(仮説形成)」に極めて近いプロセスです。
2. 論文「Deep Ideation」徹底解説
🧩 背景と課題
既存の「AIによる研究支援」手法は、主に以下の2つに分類されていました:
| アプローチ | 特徴 | 限界 |
|---|---|---|
| キーワード共起ベース | 論文中の単語同士の共起関係で研究分野を可視化 | 意味的文脈を無視し、単なる統計的関連に留まる |
| LLM単独生成型 | LLMが内部知識をもとに新規アイデアを生成 | 現実の研究知識(文献ネットワーク)に基づかないため“浮ついた”アイデアになりがち |
この論文は、「両者の融合」が必要だと主張します。
つまり、「人間の科学的知識構造(ネットワーク)を活用しながら、LLMが探索・発想する」という新アプローチです。
⚙️ 提案手法:Deep Ideation Framework

(Figure 2 from Zhao et al., “Deep Ideation: Designing LLM Agents to Generate Novel Research Ideas on Scientific Concept Network”, arXiv:2511.02238 (2025).)
📘 構成要素
-
Scientific Concept Network(科学概念ネットワーク)
- 約 10年間・10主要AI国際会議から10万本の論文PDF を収集
- 各論文からタイトル・要約・導入部を抽出し、LLMでキーワードを選定
- 共起したキーワードをノード(概念)・エッジ(関係)としてグラフ化
-
Relation Analysis Module(関係分析)
- 同時出現する概念同士の“文脈的関係”をLLMで要約
- これにより「単なる共起」ではなく「概念AとBの関係性(e.g., 因果・適用)」を明示的に取得
-
Keyword Selection & Idea Formulation Module
- LLMがネットワーク上の関連ノードを探索し、新しい組み合わせを提案
- それを研究アイデアとして整形(背景・着想・実装方針まで含む)
-
Critic Model(批評エージェント)
- 実際の査読コメント(OpenReview等)約数千件でファインチューニングされたモデル
- 各生成アイデアを「新規性」「実現可能性」でスコアリング
- このスコアを次ラウンドのフィードバックに使い、自己進化的ループを形成
-
Idea Stack(進化履歴管理)
- 各世代のキーワード・アイデア・評価を記録
- 人間で言う「研究ノート」をLLM内で模倣
🔄 ワークフロー(Explore → Expand → Evolve)
| フェーズ | 概要 | 例 |
|---|---|---|
| Explore | 既存キーワードの近傍を科学ネットワーク上で探索 | “model editing” の近傍から “LLM alignment” を発見 |
| Expand | 有望なノードを追加し、新しいアイデアを生成 | “Model Editing × Continual Learning” の組み合わせ |
| Evolve | 評価(Critic)に基づきキーワードや方向性を再選択 | “Continual”が弱い→“Dynamic”に置換して再生成 |
🧠 評価と結果
4分野(DL/NLP/CV/General AI)で比較実験を実施。
評価は「LLMによる審査」と「人間研究者54名による評価」で行われました。
| 手法 | 平均スコア(新規性+実現性) | 改善率 |
|---|---|---|
| ResearchAgent (2024) | 3.47 | — |
| SciAgents (2025) | 3.14 | — |
| Deep Ideation (2025) | 3.82 | +10.2% 向上 |
人間評価では、生成アイデアの多くがトップ会議論文と同等水準(平均スコア3.69 vs 3.66)と評価され、約半数が“トップ会議レベルの新規性”と判断されました。
さらに、アブレーション(構成要素削除)実験では、CriticモデルとEvolve機構が特に効果的であることが確認されています。
3. 実験・再現(やってみた)
🎯 目的
「LLMは“未接続の知識”を発見できるのか?」を小規模に検証。
⚙️ 使用環境
-
モデル:
gpt-oss:20b(Ollamaローカル実行) -
フレームワーク:Python + NetworkX + Ollama CLI
-
データ:サンプルキーワード(
["retrieval", "contrastive learning", "multimodal", "graph reasoning", "alignment"]) -
構成:
- Step 1. 論文や研究分野を想定したキーワード群を設定
-
Step 2.
networkxでキーワード同士の関係ネットワークを構築 - Step 3. OllamaのLLMエージェントに対し「未接続ノードの組み合わせから新規研究アイデアを提案」するよう指示
-
Step 4. 生成結果を自動で
generated_ideas.txt・generated_ideas.jsonに保存
import subprocess
import networkx as nx
from pathlib import Path
from datetime import datetime
import json
# === 設定 ===
MODEL = "gpt-oss:20b"
keywords = ["retrieval", "contrastive learning", "multimodal", "graph reasoning", "alignment"]
# === キーワードネットワーク構築 ===
G = nx.Graph()
for i in range(len(keywords) - 1):
G.add_edge(keywords[i], keywords[i + 1])
# === Ollama用プロンプト ===
prompt = f"""
You are a research ideation agent.
Given these keywords: {keywords},
find two concepts that are not directly connected in the network,
but could form a novel and meaningful research idea.
Describe the idea briefly in one paragraph, focusing on novelty and feasibility.
"""
def run_ollama(model: str, prompt: str) -> str:
"""
Ollama を Windows でも安全に呼ぶ。
- text=True は使わず bytes で受け取る
- 入力も UTF-8 で渡す
- 失敗時は stderr を UTF-8 で表示
"""
try:
result = subprocess.run(
["ollama", "run", model],
input=prompt.encode("utf-8"), # ← プロンプトは stdin で UTF-8
capture_output=True, # ← bytes を受け取る
check=False
)
except FileNotFoundError:
print("❌ ollama が見つかりません。PATH を確認してください。")
return ""
if result.returncode != 0:
err = result.stderr.decode("utf-8", errors="replace")
print("❌ Ollama 実行エラー:\n" + err)
return ""
# 標準出力を UTF-8 で安全にデコード
out = result.stdout.decode("utf-8", errors="replace").strip()
return out
# === 実行 ===
print(f"🚀 Generating research idea via Ollama model: {MODEL} ...")
content = run_ollama(MODEL, prompt)
if not content:
print("⚠️ No content generated.")
exit()
print("\n💡 Generated Idea:\n")
print(content)
# === 出力保存 ===
timestamp = datetime.now().strftime("%Y-%m-%d %H:%M")
# テキスト保存
txt_path = Path(__file__).with_name("generated_ideas.txt")
text_block = f"[{timestamp}]\n{content}\n{'-'*60}\n"
with txt_path.open("a", encoding="utf-8") as txt_file:
txt_file.write(text_block)
# JSON保存
json_path = Path(__file__).with_name("generated_ideas.json")
idea_entry = {"timestamp": timestamp, "content": content}
if json_path.exists():
with open(json_path, "r", encoding="utf-8") as f:
data = json.load(f)
else:
data = []
data.append(idea_entry)
with open(json_path, "w", encoding="utf-8") as f:
json.dump(data, f, ensure_ascii=False, indent=2)
print("\n✅ Saved to generated_ideas.txt, and generated_ideas.json")
🧠 出力結果の日本語訳
新しい研究アイデア:Retrieval-Augmented Graph Reasoning(RAGR)
私たちは、**「リトリーバル(情報検索)」と「グラフ推論」**を融合した新しいエンドツーエンドシステムを提案します。
このシステムは、オープンドメインの推論クエリに対して、まず検索で探索空間を絞り込み、次にグラフニューラルネットワークによる深い推論を行います。
具体的には、マルチモーダルなクエリ(テキストまたは画像+テキスト)を入力として、軽量なデュアルエンコーダがWikidataや企業ナレッジベースなどの巨大グラフから最も関連するサブグラフ(ノード+エッジ)を検索します。
その後、メッセージパッシング型GNNがサブグラフ上で多段階の推論(経路探索・関係伝播など)を行い、質問応答や関係予測を実現します。
この手法の革新性は、**二段階設計**にあります:
リトリーバルでグラフサイズを劇的に削減することで、数十億エッジ規模のグラフ上でもスケーラブルな推論を可能にします。
一方で、グラフモジュールは従来の検索モデルでは見逃していた**構造的な手がかり**を活用できます。
実現可能性は高く、既存のリトリーバルモデル(バイエンコーダ+埋め込み)や成熟したGNNフレームワーク(例:PyTorch Geometric)を活用し、
さらに**コントラスト学習(contrastive loss)**で「正しい推論結果に対応するサブグラフ」を整合させるよう学習します。
WikiHopやOpenBookQAといったQAタスクの初期実験では、RAGRは純粋なリトリーバル手法やグラフ推論手法よりも優れた性能を示し、推論速度も速いことが確認されました。
これにより、大規模でマルチモーダルな推論システムにおける有望な方向性が示されます。
🔍 技術的に何を言っているか
| 要素 | 説明 |
|---|---|
| Retrieval | LLMや双方向エンコーダを使って「関連するサブグラフ(部分的な知識構造)」を検索するフェーズ。これにより、全体のグラフを扱わずに済む。 |
| Graph Reasoning | 検索されたサブグラフ上で、GNNを用いて「関係の推論」「経路探索」を行う。 |
| Novelty(新規性) | Retrieval と Graph Reasoning を統合してスケーラブルに動作させる点。従来はどちらか片方のみ。 |
| Feasibility(実現可能性) | PyTorch Geometric や Sentence Embedding モデルを活用し、現実的な実装が可能。 |
| Contrastive Loss | 検索結果と正しい推論結果の整合性を高める目的で導入。これはDeep Ideation論文でも重要な構成要素でした。 |
4. 筆者の考察
Deep Ideationを読み解いて最も強く感じたのは、
この手法が単なる「アイデア生成モデル」ではなく、
“科学的発見を強化学習としてモデル化した初期形態” に見えるという点です。
論文中の「Explore → Expand → Evolve」構造を分解すると、
それは報酬最大化型エージェントの挙動と似ています。
| 強化学習の構成要素 | Deep Ideationにおける対応 |
|---|---|
| 環境 (Environment) | 科学概念ネットワーク(10万本の論文から構築された知識空間) |
| 状態 (State) | 現在探索中のキーワードノードとその近傍 |
| 行動 (Action) | 未接続ノードの組み合わせによる新規仮説の提案 |
| 報酬 (Reward) | Critic Modelによる「新規性 × 実現可能性」スコア |
| 方策更新 (Policy Update) | 高スコアのアイデアを次ラウンドの探索方針に反映(Evolveフェーズ) |
この構造を見ると、LLMは単に「生成するAI」ではなく、
“科学空間を歩き、報酬をもとに自己改善する研究エージェント” であることがわかります。
人間研究者が査読コメントをもとに論文を修正するように、
Deep Ideationのエージェントもまた、Criticのスコアを報酬として「次の仮説」を形成していく。
🔹 “10万論文”より“構造の明示化”が鍵
筆者が再現実験(RAGR生成)を通じて感じたのは、
Deep Ideationの創発性はデータ量ではなく構造表現に依存しているということです。
実験では、わずか5つのキーワードから構成されたネットワーク
["retrieval", "contrastive learning", "multimodal", "graph reasoning", "alignment"]
だけで、
Retrieval-Augmented Graph Reasoning(RAGR)
という、実際に論文として成立しそうな新規研究テーマが生成されました。
つまり、
「AIが新しい研究テーマを創る」ために10万論文は必要ない。
2〜3本の論文でも“関係構造”さえあれば創発は起こる。
Deep Ideationの本質は、知識をどれだけ集めるかではなく、
“概念同士をどう接続し、どこを空白として扱うか” にあるのだと感じます。
科学を「トポロジー(関係の地形)」として見る視点こそ、この研究の最も深い示唆でしょう。
🔹 “研究の民主化”としてのDeep Ideation
筆者が特に希望を感じたのは、
この枠組みが「巨大GPUと大量論文を持つ一部研究機関だけのものではない」という点です。
自作の再現コード(Ollama+NetworkX+ローカルLLM)で示したように、
数本の論文・数語のキーワードからでも、構造化さえすれば創発が起こる。
この事実は、
“研究とは、知識の量ではなく構造の解像度である”
という新しい科学観を提示しています。
もしこの発想を教育や企業R&Dに応用すれば、
- 学部生でも「論文2本×LLM」で新しい仮説を生成できる
- 企業でも「自社特許×外部文献」で技術的ホワイトスペースを自動探索できる
──つまり、研究という営みの入口が誰にでも開かれる未来が見えてきます。
💬 筆者注
本節の「強化学習的解釈」および「スモールデータ創発の考察」は、
Zhaoら(2025)の原論文には直接記載されていない。
筆者による再現実験と独自分析に基づく見解である。
5. ビジネス・応用視点
この仕組みは学術研究だけでなく、企業R&DやPoC企画にも直結します。
応用例
| 分野 | 活用イメージ |
|---|---|
| 🔬 新素材・創薬 | 既存論文・特許の知識グラフから「未接続化合物」を探索 |
| 💡 新規事業企画 | 異業種の技術文献をマージし、“未融合テーマ”を提案 |
| ⚙️ 技術戦略 | 企業特許ポートフォリオを概念ネットワーク化し、“空白地帯”を検出 |
特に「リサーチャー × LLMエージェントの週次ブレストBot」のような運用は現実的です。
仮説探索AIとして、PoC前段階の“問いの発見”を加速させるでしょう。
6. まとめ
- Deep Ideationは、LLMが「科学的創造」を担う初の体系的フレームワーク。
- 10万件の論文から構築した科学概念ネットワークを基盤に、LLMが探索・発想・批評を自己循環させる。
- 小規模再現でも「未接続領域の発見」が確認できた。
LLMが「論文を読む」時代から、
LLMが「研究する」時代へ。
📚 著者メモ
- Deep Ideation: arXiv: 2511.02238
- Can LLMs Generate Novel Research Ideas? (arXiv: 2409.04109)
- Creative Agents for Science (2025)
- LangChain, NetworkX 実装例
参考コード:GitHub
執筆:宮脇 彰梧(ルミナイ株式会社 / Lluminai)
【現在採用強化中です!】
- AIエンジニア
- PM/PdM
- 戦略投資コンサルタント
▼代表とのカジュアル面談URL
Discussion