📚

深層バイオインフォマティクスは表現学習である

2025/03/12に公開


細胞状態というのは細胞の遺伝子発現についての表現学習であった、
それが現在DNAやRNA、アミノ酸配列にまで表現学習が広がっている。大量のデータから自己教師ありタスク(マスクトークン予測や次のトークン予測)で表現を学習し、任意の入力について相対的な表現を出力できるようにしたものを基盤モデルと呼ぶ
HE画像のより良い表現
カルテ情報、病理診断テキストの埋め込み
mRNA量だけではなくでクロマチンアクセシビリティも使った表現
空間の、スポットの表現学習は近接細胞の情報を使用した表現学習であった、
それのアナロジーだとサブセルラーレベルの1マスに対する表現学習
HiCなどの物理的な距離を使ったDNAの表現学習
変異の入りやすさ、もしくは入った時の影響の大きさの表現
mRNAのアイソフォームごとの表現学習
3次元における1座標の表現学習
さらに進めばこの時間の状態、などの時系列の情報を用いた表現学習
ラマン情報によって定義される時系列の情報を用いた表現
ロボットの(現在は離散的であるが)行動の表現
種方向に汎化している種ごとのゲノムの表現学習
タンパク質の特定の区域の性質をよく表す表現
タンパク質埋め込みを他の種と比較した時に得られる表現。タンパク質埋め込みは水素原子などの細かい構造の情報を持てていないかも。荒いMDはある種、一部を生の構造から区域ごとに表現に落としたものだ。
摂動による反応という観点から作った表現もある。

表現学習という観点からいえば、VAEには潜在表現を得られる良さがあるし、トランスフォーマーは広い範囲から表現を学習方法として良かった。LSTMは表現を受け継げるが、遠い表現の情報を残せなかった。畳み込みは近接する座標の表現を集約できる。グラフアテンションはさらにその座標や細胞ごとに集約するものを変えて表現作りに使うことができる。拡散モデルは表現自体や生のデータを高精度に生成することができ、さらに条件に合わせた生成が可能である。

この表現とタスクの正解ラベルがあれば、深層学習ではさまざまなことを学習できる。入力をそのまま入れるのではなくて、他の多くのデータの相対として埋め込みを使う方が圧倒的に深層学習はワークする。良い表現から推定できることは多いので、その情報が含まれている可能性をどれだけ信じるかというか、その表現から学習できることを自分から狭めないことが重要だと思う。

またその表現の解像度を意図的に落とすという営みもあり、それが細胞タイプのアノテーションやDNAの領域のエンハンサー、プロモーター、ORFのようなラベルである。細胞状態として捉える方が連続的に考えられるように、DNA配列上でも連続的で相対的な表現として各塩基を扱った方が良いのかもしれない。

人間が理解できない表現に落とすことで深層学習は真価を発揮する。

対照学習(コントラスティブラーニング)のように表現自体を対応付けて、行き来できるようにする試みもある。これは各表現から何か意味のある生データに近いものやそれから推定できる量などを生成しているので、表現を橋渡しすることで異なる表現からその生成を可能にする。

表現自体を近づくように学習するのも良いが、CLIPのように各々で学習した表現の橋渡しを学習した方が質の良い表現が得られている。これは表現自体が近づくように学習することが最も適切な表現と少しずれてしまうからかもしれない。その橋渡しとしてシュレディンガーブリッジや最適輸送も効果的かもしれない。

この表現自体を作り出すタスクとこの表現自体に紐づくような具体的な値やラベルを予測するタスクに大きく分かれている。前者は大きなラボで後者は小さなラボかもしれない。一方で前者のタスクがある程度上手くいってしまえば、後者で、興味を引くようなタスクを思いつけば小さいラボでも通用する。

例えば細胞状態からの生存時間予測、サブセルラーレベルの表現から RNAの局在を当てること、スポット表現から遺伝子発現を当てること、これらは下流の具体的なタスクと言える。

また小さい実験結果でも基盤モデルの表現を使えば、汎化的な、実質多く実験したかのような結果を得ることができるかもしれない。もしくは推定することができるかもしれない。

例えば5検体しかないVISIUMのRNAデータとHE画像データがあった時に、その5ペアで対応付けを学ぶよりも、 RNAデータの表現とHE画像データの表現の対応付けを学んだ方が、新しいHE画像に対して、RNAを予測することができるだろう。これはなぜかというと、基盤モデルの表現空間には、新しいHE画像の表現がそもそも前提として埋め込まれており、そのままの空間上で相対的な位置関係が分かるからである。これが無いと、全く知らない、暗闇の空間上に現れた新規のデータを今まで学習してきたデータとどのような相対的な位置関係にあるのかを再度位置付けて、空間自体を再度設計し直す、構成し直すことが必要だからである。基盤モデルが極限に大きなデータで学習されている時という条件が付くが、その場合は新しいデータは既に知られているのである。そのデータのための席が用意されているのである。一方で下流のタスクを解きやすくするためや、手元にあるデータをより良く表すために微妙に空間を歪めることはファインチューニングと言われており、さらなる表現の向上が見込める。

関連して統計モデルについて。統計モデルは実データの分布を特定の分布であると仮定する行為だと考えている。これにより異なるデータ間で比較が容易になる。例えば平均や分散やその他の統計量を用いて比較する際に同じ基準で比較が可能になる。また新しいデータが得られた時に簡単に全体の分布を表し直すことができる。またデータの分布を過剰に真似することが無いために過学習が起こりにくい。一方でこれはどちらかといえば人間が解釈しやすいように解像度を落とす営みに分類されるように思う。なぜなら計算しやすさやある種の捨象のためにシンプルな分布でデータを表しているが、現実世界のデータはより複雑な分布をしているように思うからである。そのため深層学習とはやや異なる方向のアプローチであるように思うが、深層学習と組み合わせることで解釈性や過学習の防止を担保しつつ、深層学習の表現力も活かすことができる。

また数理モデルについてもデータの振る舞いをシンプルに記述して解釈性を高める類のものであると思う。一方で数理モデル内のパラメータが解釈可能な値である場合は、数理モデルとして書くことで分かることが増えることになる。 RNA velocityのスプライシング速度、COX比例ハザードモデルの回帰係数。これらは単なるパラメータではなく、実際に意味を持つ、解釈性がある。細胞の核から核外に行く速度など、まだ現実的には観測できないが、数理モデル化というある種の仮定をすることでスナップショットデータから特定の解釈可能な値を抽出することができるようになる。

表現学習とその表現を使ったタスクの学習についての話に戻ろう。

表現を利用したタスク、これらのタスクというのはそこそこの数しか無いのだろうか。このタスクというのは実在するデータそのものの予測や生成、もしくはそのデータを用いて単純にもしくは深層的に計算できる値の予測のいずれかに限られる。例えばDNA配列やアミノ酸配列から大腸菌内にプラスミドとして導入した場合の発現活性は、配列から深層的に計算できる値の例である。これは観測の発展に依存している。例えば現在は特定の1分子のmRNAの時系列的な運動のデータの取得は限られているが、これが網羅的に取得可能になれば、配列からの予測を行う深層学習モデルが作成可能である。

さらに観測だけではなく、実験というものを自由度を高めて考えてみると、データ空間のさらなる拡張が見込めるように思う。例えば特定の摂動を与えた時の1分子mRNAの挙動の変化を実験的に取得した場合、摂動のラベルもしくは連続的な表現と、RNAの配列の表現を組み合わせて、摂動を与えた場合のmRNAの挙動を予測する深層学習モデルの作成が見込める。これはmRNA1分子の時系列的で網羅的な観測という観測自体の進化は起こっていない。

さらに設計というタスクも組み合わせてみよう。摂動させた場合の観測データを大量に取ることで、意図したmRNAの挙動を示す摂動を明らかにすることができる。例えばすぐに分解されるようになるとか、神経突起の方に輸送されるようになるとか。そのような意図した動きをさせるような摂動を明らかにすることもバイオインフォ的なタスクの一つである。

これに加えて、これらのタスクをAIにやらせるという自動化のタスクを考えることができる。そのmRNAの挙動の望ましさを定量化する指標を設定してあげる。もしくはより抽象的な指示を与えればその指標を勝手に設計できるようになるかもしれない。もしくは指示を与えなくても自動的に指標を設定できる、もしくは指標というのは人間に解釈可能な定量的な値であるため、指標自体の表現というものが将来考えられている可能性もある。また実験自体の自動化をロボットがすることが必要である。ロボットができる操作に人間がやっている実験を落とし込む必要があるかもしれない、もしくは人間の実験手技レベルの自由度の高い動きができるようになっているかもしれない。なんにせよ追加の実験を自動的に設計する、もしくは深層学習モデルの設計を自動的に行う、もしくは新しい手技を用いた実験をロボットが実行可能になるように学習させることなどのタスクも大きな領域として存在している。

バイオインフォがクリアされる可能性を憂いていたが、観測の進化、実験との組み合わせ、設計という目線、タスクの自動化というタスク、といった組み合わせを考えるとそこそこに探索空間が広く、これからも楽しめそうである。

一方で基盤モデルにより学習された、かなり大量のデータが相互に比較可能な表現というのは今後の深層バイオインフォマティクスにとっての前提となる大きな発明のように思う。これによって深層学習モデルは高品質になるために、そのモデルの細かな設計よりも実現可能になるタスクに目が向くようになるだろう。一方で表現が確立されていないデータの表現の学習方法を提案すること、目をつけられていないタスクを確立された表現を用いて行うこと、既存タスクの精度を高めることはAIだけで実行可能で、研究の余地がある。また実験が可能という仮定を置くならば、さらに広い探索空間上で新しい方法を提案できる。まだやる余地はありそうである。

Discussion