Open5

【論文】AI co-scientist

山田涼太山田涼太

はじめに

2025年2月にGoogleが発表したマルチエージェントシステム。以前ざっと読み流したけど、じっくり読んでみる。
コードは公開されておらず、発表当初はテスターを募集していたが現在は募集中止(申し込みしたが通らなかった)。動作検証できないので限界はあるが、諸々のAI関連の動きを見ていてGoogleの取り組みは追っておきたいと思ったので。

山田涼太山田涼太

ブログ記事

まずは読みやすそうなブログで概観を掴む。

記事のタイトルは「Accelerating scientific breakthroughs with an AI co-scientist」であり、すでに示唆に富んでいる。AI co-scientistは科学的ブレークスルーを加速させる存在であって、科学的ブレークスルーそのものを実現するものではないことがこの時点で伺える。

AI co-scienstistが何であるかは以下の通り。Sakana AIが機械学習にフォーカスしていたのに対してバイオメディカルにフォーカスしている。

a multi-agent AI system built with Gemini 2.0 as a virtual scientific collaborator to help scientists generate novel hypotheses and research proposals, and to accelerate the clock speed of scientific and biomedical discoveries.
Gemini 2.0を基盤として構築されたマルチエージェントAIシステムで、仮想的な科学研究の協力者として機能します。科学者が新しい仮説や研究提案を生成するのを支援し、科学および生物医学分野における発見のスピードを加速させることを目的としています。

現代のブレークスルーが学際的取り組みから生まれていることに言及。科学論文の発表数が増加する時代に研究に広さと深さが必要となるジレンマに注目。
AI co-scientistは「科学的手法の根底にある推論プロセスを反映するように設計」したとのこと。
標準的な文献レビュー、要約、ディープリサーチツールを超えて、既存の証拠に基づき特定の研究目的に合わせて新たで独自の知識を明らかにし実証可能な新規の研究仮説や研究提案を構築することを目的としている。

Generation, Reflection, Ranking, Evolution, Proximity and Meta-reviewの6つのエージェントに言及。

Given a scientist’s research goal that has been specified in natural language, the AI co-scientist is designed to generate novel research hypotheses, a detailed research overview, and experimental protocols. To do so, it uses a coalition of specialized agents — Generation, Reflection, Ranking, Evolution, Proximity and Meta-review — that are inspired by the scientific method itself.
自然言語で指定された科学者の研究目標を受けて、AI共同科学者は新規の研究仮説、詳細な研究概要、および実験プロトコルを生成するように設計されています。これを実現するために、科学的手法そのものに着想を得た専門エージェントの連合体—生成、内省、ランキング、進化、近接性、メタレビュー—を使用します。

科学者はco-scientistシステムとチャットインターフェースでやり取りする(システム内部で複数のエージェントが協働していることがわかる)。

マルチエージェントシステム内部の構造的な描画。Supervisorが他のエージェントに仕事を割り当て、リソースを有効活用している。

山田涼太山田涼太

評価

システムはElo ratingを用いて仮説をスコア付けする。Gemini 2.0単体による評価は実際の精度と相関が見られないが、AI co-scientistはシステムによるスコア付けとその仮説の確からしさに正の相関が見られた。

他の評価指標は論文読んでから読みとこう。Elo ratingがどこに使われているか把握しておいた方が理解が深まりそう

山田涼太山田涼太

論文

Abstract

課題意識などはブログに書いてあった通り。

本論文の貢献:

  1. 柔軟な計算スケーリングのための非同期タスク実行フレームワークを備えたマルチエージェントアーキテクチャ
  2. 自己改善型仮説生成のためのトーナメント進化プロセス

汎用的な目的を持つ一方で、3つの生物医学分野での開発と検証に焦点を当てた:

  1. 薬剤転用
  2. 新規標的発見
  3. 細菌進化と抗微生物薬耐性のメカニズムの解明

検証結果:

  1. 薬剤転用: 急性骨髄性白血病に対する候補薬が臨床応用可能な濃度でin vitroにおいて腫瘍抑制を示せた
  2. 新規標的発見: 肝線維症に対する新しいエピジェネティック標的を提案し、ヒト肝臓オルガノイドにおける抗線維化活性と肝細胞再生によって検証された
  3. 細菌進化における新規遺伝子転移メカニズムの解明: 未発表の実験結果を再現
山田涼太山田涼太

長い論文なのでFigureをざっと見てみる。

Figures

Figure 1 | The AI co-scientist system design and experimental validation summary.

a. The AI co-scientist system design

ブログに書いてあったもの。人間がシステムとどうやりとりするか、システム内部で何が動いているかの模式図。

b. Parallel in-silico discovery of bacterial gene transfer mechanism relevant to antimicrobial resistance (AMR)

3つの注力領域、薬剤転用、新規標的発見、細菌進化と抗微生物薬耐性のメカニズムの解明における実例。青は科学者による入力、赤はエージェントの出力。
薬剤転用、新規標的発見の出力に対しては、科学者がレビュー、候補を選定した上でin Vitroで実験を行った。

Figure 2 | The AI co-scientist multi-agent architecture design.


ブログにも掲載があったシステムのアーキテクチャ。
ユーザーの入力をresearch plan configurationにパースし、それをSupervisorエージェントに渡す。Supervisorエージェントは受けった計画を評価し、各専門エージェントに重みとリソースを割り当てる。

Figure 3 | Concordance of the auto-evaluation Elo metric with AI co-scientist performance on GPQA.


これもブログにあった通り。AI co-scientistは確からしさを評価できる。

Figure 4 | Impact of scaling test-time compute on AI co-scientist as measured by Elo auto-evaluation.


時間をかけるとスコアが高くなることを示している。10のタイムバケットにわけて仮説を生成させてたとき、後半ほど良い仮説が出ている。ただしこの評価はAI自身による評価。

Figure 5 | Comparison of the AI co-scientist with other baselines as measured by Elo auto-evaluation on a subset of 15 challenging expert-curated research goals.


専門家が選定した15の挑戦的な目標に対するEro rating。ここでも同様にAI co-scientistはイテレーションを増やすことでスコアが上昇した。他のモデルおよび専門家の数値を大きく上回った。

Figure 6 | AI-augmented expertise with the co-scientist through Elo-based auto-evaluation.


専門家がAI co-scinetistを使うことで仮説のEro ratingは増加した。

Figure 7 | Expert evaluation of AI co-scientist and other LLM baselines.

Left

11人の専門家が選定した研究目標に対するシステムの出力の新奇性と影響力に関する専門家評価。数値が高いほど良い評価(1-5)。

Right

11人の専門家が選定した研究目標に対する各モデルの出力に対する、専門家による選好順位の平均。数値が低いほど良い順位を示す(1-4)。