定量生物学研究室(最近の研究概要):2024年度更新version
この記事は、2024年度までの研究室の活動や考えているトピックについてまとめたものになります(2023年度を更新しました)。
特に大学院入試受験者の方に参考にしてもらえればと思って作成しました。研究室の全体的な情報はHPを参照してください:
またこの分野の勉強の仕方などは
なども参考にしていただけたらと思います。
概要
我々の研究室では、生命システムの示す様々な情報処理の原理やその効率・限界を、数理や情報の言葉で理解することに興味を持っています。対象は広く、細胞走性、細胞薬剤耐性、集団運動、免疫、発生、嗅覚、進化、自己複製など興味や目的に応じて適切な現象を扱います。
既存の数理を活用するだけでなく、生体特有の問題設定を扱うために新しい数理も構築しています。また、実際の関連データからこれらの原理を検証する、もしくは発見するため、生体データ解析と我々の目的に必要な新たな情報学的手法の開発も行っています。そして、可能であれば生命情報処理から得られた知見を、実社会へと応用することにも興味を持っています。以下では
- 生命システムと情報処理の数理:理論生物的、理論生物物理的研究
- システム・ダイナミクス・最適化の数理:数理科学的研究
- 生命現象とデータ科学:情報学的研究
に分けて関連するトピックを簡単解説します。また最後にどうやって手をつけていいのかすらわからない(が興味のある)問題についてもちょっと言及します。
生命システムと情報処理の数理
「生物システムは非生物な物理システムと何が本質的に違うのか?」、「生体情報処理は工学的な情報処理と何が本質的に異なるのか?」などを明確化し、生体システム特有の設計原理を理解したいと思っています。
多元化学情報処理
生命システムは1細胞の化学感知から我々の感覚系も含め、外界を感知する巧妙な装置を持っています。これらは極めて微量のシグナルを多量のノイズのある状況などで感知できることが知られています。我々は、これまで最適フィルター理論など用いて、環境感知の物理限界の推定や実際に限界を達成しうる構造が大腸菌の化学走性システムに存在することなどを示してきました(日本語の解説など):
現在はこのような方法論を複数シグナルの情報処理に拡張することを目指しています。実際細胞は同時に多数の化学シグナルにさらされますし、我々の免疫系は多様な外敵の分子パターンを、嗅覚は複雑なニオイ物質の混合を認識できます。言語が単語の組み合わせであるように、化学物質の組み合わせは生き物にとっての基本的な言語です。この化学言語をどのように生体が読み解いているのかを、最適化理論をベースに高次元統計や深層学習系の数理などを組み合わせ解読したいと思っています。
情報処理と学習過程
生体情報処理システムは様々な状況で機能する事ができ、その能力の一端は状況に合わせてシステムを適応させられることに起因します。適応とは広く見ると、これまでの経験から系のパラメータを適切に調整されることであり、広義の学習として捉えることができます。しかしどんなシグナルに適応(鈍化)すべきで、どんなシグナルには適応せず応答性を維持するべきなのか、つまり複雑な状況で何を学習し学習しないのかがどう決まっているかは未解明です。
我々はこれまで、獲得免疫系が様々な外敵や無害な自己細胞を判別し応答を学習する過程が、強化学習と深層ネットワークと対応させて捉えられることを示してきました。
このような学習は、極めて学習能の高い免疫系だけでなく生命システムの様々な局面、例えばシグナル伝達や嗅覚系、代謝系、発生、などでも潜在的に存在すると考えています。我々は強化学習の理論などを発展させることで、適応の原理やその帰結としての生体情報処理のロバスト性や恒常性を明らかにしたいと思っています。
集団ダイナミクスと集団的情報処理
生体は個々の細胞で巧みに振る舞うだけでなく集団としても様々な機能を実現します。免疫細胞は集団で協調して外敵を発見・排除しますし、発生も個々の細胞がそれぞれに方向性を持って振る舞い(分化)ながら、全体としての構造を作り出します。このような集団の機能や最適性を1細胞との階層的関係を含めてとらえる理論はまだまだ未完成です。
我々は2つの理論的方向性を探索しています。一つは勾配流ダイナミクスを集団動態と関連づけ、集団の適応的ランドスケープと細胞ごとのエピジェネティクランドスケープをつなぐ試み。これはワディントンランドスケープなどの理論的精緻化につながります。
もう一つは細胞などが環境のシグナルを積極的に生成・分解して情報処理を行う過程を最適性の観点で捉える方向性です。こちらは群知能などの理論的精密化とも捉えられ、また最近流行りの脳やAIの世界モデル(agentの中に作られる外部世界モデル)に対して、外部世界自体に記憶を焼き付け集団で共有・活用する「拡張された記憶(拡張された表現型の一つの形)」という概念にもつながると考えています。
情報処理と進化
自然選択と変異によるダーウィン的進化は、環境に適応的な集団が形成されるという意味で、集団としての情報処理とみなせます。しかし通常の情報処理が現在と過去の情報を元に最適な振る舞いを事前に計算・選択するのに対して、進化は自己複製と変異で多様な振る舞いを先に生み出し、うまくいったものが事後的に選ばれるという意味で、両者の時間依存の構造は全く異なります。我々は、進化動態の経路積分表現により、この進化による事後的な情報処理を情報理論の枠組みで捉えられることを理論的に示しました。そしてこの2つの組み合わせにより学習や進化が加速されること、例えば個々の細胞やagentの学習がその集団の進化を本質的に加速させることなどを示しました(日本語解説はこちら):
また、この学習と進化の組み合わせは脳の進化にも関わりますし、より基本的には適応的変異(adaptive mutagenesis)やエピジェネティクスの進化的意味、遺伝系・表現型対応にも関連しています。
自己複製できることは生物と非生物、生体システムと工学システムを峻別する特性です。この自己複製を基礎とした情報処理のあり方や可能性を理論的に探ることで、生命システム特有の情報処理原理やまた様々な生体情報処理の不思議な点(例えば認知バイアスなど)を理解できると期待しています。
情報処理と物理化学限界
最適化の理論は生体情報処理をひもとく指針ですが、生体に限らずすべてのシステムは必ずしもナイーブな最適解と同じに作ることはできません。そこにはシステムを実現する際に課される物理的・化学的拘束があります。これらの拘束を考えて初めて最適性が適切に議論できます。工学システムの多くが電気回路やメカニカルシステムで実現するように、生体は化学回路と分子システムで実現されます。我々は平衡・非平衡の反応ネットワークを捉える理論を最近構築しました(日本語解説はこちら):
化学反応回路と分子システムが持つ物理化学的限界はなにか、またそれらの挙動に付随する熱力学的なコストはなにかを非平衡化学反応系の理論を発展させることで明らかにしたいと思っています。これにより初めて、微小なシグナルを増幅する時の物理限界はなにか、適応や学習に伴うコストはなにか、そして進化の原動力である自己複製に伴う物理化学的コストはなにか、などを扱えるようになると思います。また細胞内反応を物理化学的に適切にモデル化する上でも化学反応の理論は不可欠です。
システム・ダイナミクス・最適化の数理
我々の研究は上述のような生体システムや生体情報処理の理解に動機づけられていますが、その結果として純粋に数理として解決すべき課題、興味深い課題も明らかになっています。以下ではそれら我々が取り組んでいる数理的問題をリストしています:
化学反応ネットワークの数理
生体を構成する細胞は化学反応のネットワークが集積したシステムであり、必然的に化学反応ネットワークの理論が基礎になります。化学反応ネットワークやそのダイナミクス・熱力学の理論はメジャーな分野ではありませんが、力学系や確率過程、熱力学、そして他の数学から見ても実はとても面白い対象です。
反応が分子の離散的な変換であることから反応ネットワークには代数的な制約が存在し、それがグラフ理論・離散解析、ホモロジー代数、そして実代数幾何やトーリック幾何などにつながります。また熱力学的構造に起因して、化学反応系は一般化勾配の構造をもち、我々が最近示したようにそれに付随する双対平坦構造の幾何学である情報幾何(ヘッセ幾何)も関連します(日本語解説1, 日本語解説2):
更にそのダイナミクスはシンプレクティック構造などとの関連も示唆されています。そして確率過程としての反応系は大偏差理論の未開拓な(でも手の届く)対象でもあります。よって化学反応ネットワークは多様な数理が非自明な形で絡み合う興味深い対象なのです。我々は、生物を意識しつつ反応ネットワークのこのような数理面にも強い興味を持っています。
ネットワーク上の一般化ダイナミクスと情報学への応用
化学反応ネットワークのダイナミクスは、ハイパーグラフ上の非線形ダイナミクスのクラスであり、標準的なグラフ上のダイナミクス、例えばマルコフジャンプ過程(線形)などを特殊例として含みます。したがって、化学反応ネットワークの理論は、より広く様々なネットワーク上のダイナミクスの基礎とみなせます。
我々はこの理論の数理としての普遍性に着目して、ネットワーク科学や最近のグラフニューラルネットワークなどへの数理的拡張も行っています。
自己複製系の数理
自己複製反応系は、反応ネットワークが空間サイズに対応する大域的変数と熱力学的な関係性でカップルした系です。この系が内在する幾何学などは普通の反応系の情報幾何学などだけでは不十分で、射影幾何学などより数理的に込み入ったものと結びついていることを我々は示しました(日本語解説はこちら):
化学反応系の数理の中でも自己複製の数理は未開拓で、また非平衡熱力学の観点でも自己複製状態が恒常的に維持される成長定常状態は通常の非平衡状態とは異なる非平衡状態であることも我々の理論でわかっています。また化学量論的な代数拘束も自己複製に大きくえいきょうすることもわかってきました:
これらの理論を更に発展させ、生命特有の自己複製過程の物理化学的法則や拘束を明らかにしたいと思っています。
最適推定・最適制御の数理的普遍構造とその拡張
ダイナミクスの最適推定や最適制御の理論は生体情報処理の理解の基本ツールです。しかしその数理構造は複雑で、一見関係していそうでその詳細がよくわからない関係が山積します。また既存の理論が生体情報処理のコンテキストに適していなこともあります。我々は、最適推定や最適制御に通底する情報学的・熱力学的変分構造に着目しています。この変分構造は推定や制御のみならず統計力学や進化においても現れる普遍的なものです。それらの関係を統一的に理解したいと思っています。
またこの共通構造などをヒントとして、既存の理論を拡張してゆきます。例えばこれまでに、制御や推定に関わる制約やリソースを陽に考慮した新しい制御理論の開発などを行っています(日本語解説はこちら):
生命現象とデータ科学
生命現象の理解において理論だけでは限界があります。実際に現象を計測した様々な定量データを解析することで、理論で考えていたこととは異なる性質や振る舞いがわかってくることはしばしばあります。
我々は生命システムやその情報処理に関わるデータ解析とともに、その解析に必要となる新たな情報技術の開発を行っています。
化学情報処理(嗅覚・免疫・分子ネットワーク)のデータ科学
生体がどの様に化学分子を媒介として情報を伝達しまた処理しているかを理解することは生体システムの一つのゴールです。データ科学により化学物質のパターンと生体情報処理を関連付けることは、理論ベースで化学情報処理の原理を理解することと補完的です。また、最近の深層学習などの応用は画像や音声・言語などで発展したものの、化学情報に関しては相対的に技術発展が不十分です。
我々は嗅覚系や獲得免疫系、また細胞間シグナル伝達系を主な対象として、次世代シーケンスデータや網羅的な少分子情報とその受容体応答データを用いて、化学分子情報認識の予測やその表現を可能とする機械学習・深層学習手法の開発を行っています:
特に最近は、言語モデル的な方法を分子配列に活用するアプローチや、グラフニューラルネットワーク(gNN)などの分子表現に優れた方法論を上述のネットワークの理論などをベースに更に改良して応用する方向性を探求しています。
生体状態の生きの良さ(隠れ状態)の推定手法の構築と応用
生体ダイナミクスや情報処理の予測には、生体の持つ状態や記憶を捉える必要があります。しかし生体システム自体は無数の要素で構成される高次元系であり、また細胞の状態や記憶は単一分子の状態などでは決まらない複雑なものであることもわかってきています。我々は、計測されたシステムのふるまいからこのような状態や記憶を隠れ状態や隠れた構造として推定する技術の開発を行っています。
これまでに細胞系譜から隠れた単細胞の生きの良さを推定する方法や、NNと点過程を組み合わせて細胞の分裂動態を予測する方法、免疫受容体の多様性パターンから免疫状態を推定する方法、そして最近ではラマン分光の情報から細胞の状態やトランスクリプトームなどを推測する方法の開発などにも取り組んでいます:
これらの方法の発展により、生体の生きの良さなどのとらえどころ無い状態をより定量的に特徴化したいと考えています。
生体ダイナミクス推定技術の構築とその応用
生体情報処理の理解にはシステムの状態を知るだけでなく、そのダイナミクスを規定する運動法則を知ることも不可欠です。過去20年の間にイメージングやシーケンシングの技術が急速に発展したことから、この運動法則をより定量的かつ詳細にデータから明らかにすることが可能になりつつあります。
これまでに我々は、免疫細胞の発生過程や細胞分裂のパターンを経時的なFACSデータや顕微鏡データから明らかにする方法に取り組み、更に最近では深層学習やattention機構などを用いた方法論も活用しています:
現在はさらに多細胞団のふるまいからその集団としての相互作用や運動則を推定したり、RNA velocityなどを発展させシーケンスから細胞動態法則や発生ポテンシャルを推定することにも取り組んでいます。多くの生体データ解析の基礎はグラフ理論やその応用に基づいているため、数理面で我々が発展させた知見を新たなデータ解析方法の開発にも有効です。
その他の大事だが手のつけどころがまだわからない課題
上述の数理的課題は生体情報処理の問題を動機として、これまでの研究でどうやればいいか比較的方向性が見えてきたものです。一方、ず〜っと大事だと思っていても手のつけどころがわからない課題もあります。
可変次元の力学系・サポートの変化する確率過程と進化や学習の関係
その一つは、力学系として次元などが変化する系をどう扱うかです。細胞群や生態系では、新たな遺伝形質や新たな種が変異や種分化で現れ、また絶滅によって一部の遺伝型や種が失われることもあります。これらは次元が可変でかつ力学系自体の状態で変化しうる力学系として表現されますが、その法則や性質をどう捉えていいかはシミュレーションして観察する以外全くわかりません。また確率過程でも、通常は考える確率分布のサポート(台)は時間発展で不変と仮定されますが、サポートがダイナミックに変化する問題も進化や生体ダイナミクスの理解に不可欠です。こういった問題は、進化であれば全く新しい種が出てきてマクロな進化が発展する現象や、学習だと全くこれまで試していない未踏の領域を見出してゆくプロセスに対応しており、極めて重要だと思っています。
生体情報処理や生体ダイナミクスにおけるカオスの意味と役割
私は複雑系のピークが過ぎた時代に分野に入った世代で、学生時代に多くの複雑系の概念に触れました。当時、カオスの持つ機能は盛んに議論されましたが確固たる理論は形成されませんでした。またそもそも決定論的な意味で定義されたカオスが、確率的な性質の強い生命システムなどでどう数理的に特徴づけていいのかも全く自明ではありません。ただやっぱり多安定定常状態や振動状態だけで生命現象のすべてが説明できるかというと、そんなんことは無いんじゃないかと思っていて、何らかの形でカオス現象を確率的な生体情報処理の文脈で位置づけたいと思っています。
Discussion