scFoundation:単一細胞トランスクリプトミクスの基盤モデルを理解する
はじめに
医学部4年生の筆者は、普段からオミクス分野の研究に携わっています。オミクス分野でも、いよいよTransformerを用いた基盤モデル(Foundation Model)の時代が到来しました。中でもscFoundationは、単一細胞トランスクリプトミクスデータから細胞の「言語」を解読するための基盤モデルとして注目を集めています。
本記事では、2024年6月にNature Methodsで発表されたscFoundationについて解説します。この論文で面白いのは、以下の3点です:
-
大規模なデータ処理のための工夫
- 約2万遺伝子をカバーする1億パラメータを持ち、5000万以上のヒト単一細胞トランスクリプトミクスプロファイルで事前学習
- データのスパース性に対応するための効率的なアーキテクチャ設計
-
実用性の高さ
- 遺伝子発現の向上、薬物反応予測、単一細胞摂動予測、細胞型注釈など、多様なタスクに対応
- ファインチューニング不要、または軽量なファインチューニングで高性能を実現
-
リード深度の差を考慮した設計
- 実験技術や実験室の違いによるリード深度のばらつきに対応
- RDA(read-depth-aware)モデリングによる補正機能の実装
これらの特徴により、scFoundationは単一細胞トランスクリプトミクスデータ解析のデファクトスタンダードになりつつあります。本記事を通じて、その仕組みと可能性について理解を深めていただければ幸いです。
それでは、具体的な内容について見ていきましょう。
論文URL: https://www.nature.com/articles/s41592-024-02305-7
【Abstract】
- この研究は、単一細胞トランスクリプトミクスデータから細胞の「言語」を解読するための基盤モデル、scFoundation (別名 xTrimoGeneFoundation) を開発した。
- scFoundationは、約2万遺伝子をカバーする1億個のパラメータを持ち、5000万以上のヒト単一細胞トランスクリプトミクスプロファイルで事前学習されている。これは、学習可能なパラメータのサイズ、遺伝子の次元数、および学習データ量において大規模なモデルである。
- 非対称transformer風アーキテクチャと事前学習タスク設計により、様々な細胞種や状態における遺伝子間の複雑な文脈関係を効果的に捉えることができる。
- 実験の結果、scFoundationは、遺伝子発現の向上、組織薬物反応予測、単一細胞薬物反応分類、単一細胞摂動予測、細胞型注釈、遺伝子モジュール推論など、多様な単一細胞解析タスクにおいて最先端の性能を達成する基盤モデルとしてのメリットを示した。
【Introduction】
scRNA-seqの進歩
- 単一細胞RNAシーケンス(scRNA-seq)技術の進歩により、細胞レベルでの遺伝子発現を網羅的に解析することが可能になった。
- Human Cell Atlas (HCA)などのプロジェクトにより、scRNA-seqデータは指数関数的に増加しており、細胞の多様性や複雑さを理解するための貴重なリソースとなっている。
scRNA-seq解析の課題
- しかし、scRNA-seqデータの解析にはいくつかの課題が存在する。例えば、
- データの次元数が非常に大きく(約2万個のタンパク質コード遺伝子)、データのスパース性が高い→従来のTransformerでは扱うのが困難
- 実験技術や実験室の違いによるリード深度のばらつきやバッチ効果も解析の妨げとなる
- 従来の単一細胞データ解析手法は、これらの課題に対処するために様々な工夫が凝らされてきたが、問題は残っていた。
- 計算コストが高く、特定のタスクに特化したモデルが必要となる場合が多い
- 既存の事前学習モデルは比較的小規模であり、遺伝子選択や発現値の離散化など、情報の損失を伴う処理が必要
scRNA-seq用基盤モデルの開発
- 本研究の目的は、単一細胞トランスクリプトミクスデータの解析を促進するための基盤モデルを開発すること。
- 具体的には、大量の単一細胞RNAシーケンス(scRNA-seq)データから細胞の複雑な遺伝子発現パターンを学習し、様々な下流タスクに適用可能な汎用的な細胞表現を獲得することを目指す。
- これにより、細胞の「言語」を解読し、細胞の機能、状態、細胞種をより深く理解することが可能になり、生物医学研究の進展に貢献することが期待される。
- 近年、自然言語処理分野で成功を収めている大規模事前学習モデル(例えば、GPT)の概念を生物学分野に導入することで、細胞の複雑な挙動を理解するための新しいパラダイムを確立することを目指している。
【Results】
scFoundationの概要
Fig. 1: 事前トレーニング フレームワークの概略図
scFoundationの事前学習フレームワークの概要を示す。
(a) データ収集
(b) 事前学習プロセス
(c) 下流タスクへの適用方法
この図は、scFoundationの全体像を理解するための導入として役立つ。
以下の3つが手法のキモ。
1. xTrimoGeneアーキテクチャ
Fig. 1 (b):事前学習プロセス
- 埋め込みモジュールと非対称エンコーダ・デコーダ構造から成るスケーラブルなtransformerベースモデル。
- 埋め込みモジュールは、遺伝子ごとのスカラー発現値を高次元ベクトルに変換。
- この時点で、遺伝子には3種類ある。
- Mask:ランダムにマスクされていて発現値が不明
- Zero:発現していない(かつマスクされていない)遺伝子
- Nonzero:発現している(かつマスクされていない)遺伝子
- エンコーダは発現している(Nonzero)遺伝子の埋め込みのみを処理し、Mask & Zero 遺伝子の埋め込みは放置することで、スパースな遺伝子発現データに対する計算効率を向上。
- 一方デコーダは全遺伝子を処理する。
- Nonzero 遺伝子の埋め込みをエンコーダに入力し、出力されるベクトルの使い方は2通り。
- mask & zero 遺伝子の埋め込みと結合し、デコーダに送り、生の遺伝子発現との再構成誤差を計算する経路
- プーリングし、下流タスクで使用するための細胞埋め込み表現を生成する経路(推論時)
- プーリングの取り方は下流タスクの目的で変わってくる
2. RDA(read-depth-aware)モデリング
Fig. 1 (a)右:事前学習プロセスの概観
- 入力はマスクされた遺伝子発現ベクトルと2つの合計カウントインジケーター(TとS)で構成される。出力はすべての遺伝子の予測発現値であり、損失はマスクされた位置で計算。
- 合計カウントを 1 つのセルのリード深度(read-depth)だとみなせば、合計カウントインジケーター(TとS)は、生サンプル(出力)とマスクされたサンプル(入力)のリード深度となる。
- つまりこのタスクは、マスクされた遺伝子発現を、同じ細胞の複製または低リード深度バリアントから予測する事前学習タスクといえる。
- 細胞内の遺伝子間の共発現パターンを学習するだけでなく、異なるリード深度の細胞を関連付けることを可能にする。
- 推論に使用する場合は、細胞の生の遺伝子発現を事前トレーニング モデルに入力し、T をその合計カウント S よりも高く設定して、リード深度を強化した遺伝子発現値を生成。
3. 大規模データでの事前学習
Fig. 1 (a):下流タスクへの適用方法
- 5000万以上の単一細胞トランスクリプトミクスプロファイルで事前学習を行うことで、複雑な細胞内パターンを効果的に抽出。
下流タスクの概要
Fig. 1 (c):下流タスク
- 細胞クラスタリング、バルクデータでの薬物反応予測、単一細胞薬物反応分類、単一細胞摂動予測、細胞型注釈、遺伝子モジュール推論など、複数のダウンストリームタスクでscFoundationを評価。
- また、リード深度の低いデータに対する遺伝子発現向上能力や、異なるバッチの細胞のマッピング能力も検証。
実験1 | スケーリング則 / リード深度の向上
スケーリング則の実験
- パラメータサイズと計算量の増加に伴い、検証損失が累乗則(power-law)に従って減少することが確認された。この現象は大規模言語モデル(LLM)における「スケーリング則」として知られている。
- 研究チームは3つの異なるサイズ(300万、1000万、1億パラメータ)のモデルを訓練し、検証データセットでの損失を記録した。
リード深度を向上させる実験
- RDAモデリングにより、scFoundationはTをSより大きな値に設定することで入力細胞のリード深度(read depth)を向上させることができる。これを検証するため、バリデーションデータセットから無作為に抽出した10,000細胞の独立したテストデータを使用した。
- オリジナルのプロファイルの1%、5%、10%、20%までtotal countsをダウンサンプリングし、4つのデータセットを生成。各データセットに対して、非ファインチューニングのscFoundationを使用し、サンプリング率の逆数をTとして設定することで、低total countsの細胞を強化した。
Fig. 2: クラスタリング結果(scFoundationでリード深度を向上させた)
リード深度向上モデルの性能を示す。
(a) モデルサイズと計算量に対する検証損失のスケーリング則
(b) 未知のデータセットにおけるリード深度向上性能
(c) 他のimputation法とNMI、ARI、SILなどの指標を用いて性能を比較
(d) 膵島データセットにおけるUMAPプロット
(e) Zheng68KデータセットにおけるUMAPプロット
(f) Zheng68Kデータセットにおけるクラスタリング性能
この図は、scFoundationのリード深度向上能力と、ファインチューニングなしでのクラスタリング性能の優位性を示すことを目的としている。
スケーリング則の実験結果
- Fig. 2のaでは、パラメータ数と浮動小数点演算(FLOP)の総数が増えるにつれて、検証損失は累乗則に従って減少した。
- 1億パラメータを持つscFoundationモデルは、他の既存のトランスフォーマーベースのモデルやscVIと比較して、最も優れた性能を示した。
- 細胞タイプのアノテーションタスクにおいても、モデルサイズの増加に伴って性能が向上する傾向が観察された。これは補足資料の表2に記録されている。
リード深度の向上についての実験結果
- scFoundationは、ダウンサンプリング率が10%未満でも、ダウンサンプリングされたデータからMAEとMREを半分に削減することができ、極めて低いtotal countsのシナリオでも遺伝子発現を強化できることを示した。
- ヒト膵島データセットにおいて、scFoundationをMAGIC、SAVER、scImpute、scVIなどのインピュテーション手法と比較。scFoundationは、TをSの1〜5倍に設定することで、非ファインチューニングエンコーダーから5セットの細胞埋め込みを取得した。
- クラスタリング精度の評価では、T/S比が増加するとscFoundationのパフォーマンスが急速に向上し、他のすべての手法を上回った。T/S比が3.5S以上では性能が頭打ちとなった。
- Zheng68Kデータセットへの適用では、scFoundationは非ファインチューニングモードでメモリT細胞を他のT細胞から効果的に分離し、CD14単球とCD34細胞をより良く区別した。
- 以上から、scFoundationは、リード深度の低いデータにおいても、遺伝子発現を高精度に予測できることが示された。
- これは、scFoundationが、RDAモデリングにより異なるリード深度の細胞間の関係を学習できていることを示唆している。
実験2 | 抗がん剤反応予測の改善
- 抗がん剤反応 (CDR) は、薬物介入に対する腫瘍細胞の反応のこと
- CDR を計算的に予測することは、抗がん剤の設計を導き、がん生物学を理解する上で重要
- scFoundation と 既存の CDR 予測法 DeepCDR を組み合わせて、複数の細胞株データにわたる薬物の半最大阻害濃度
値を予測したIC_{50} - この実験では、scFoundation が単一細胞でトレーニングされているにもかかわらず、バルクレベルの遺伝子発現データに有益な埋め込みを提供できるかどうかを検証する
- オリジナルの DeepCDR モデルは、薬物の構造情報とマルチオミクスデータを入力として使用し、予測
を出力したIC_{50} - そこでscFoundation ベースのモデルとして、遺伝子発現データに焦点を当て、DeepCDR のトランスクリプトーム多層パーセプトロン (MLP) サブネットワークを scFoundation に置き換えたものを使用し、比較した
Fig. 3: 薬物反応予測(scFoundation 埋め込みを使用)
scFoundation埋め込みを用いた薬物反応予測の結果を示す。
(a) scFoundationベースのDeepCDRモデルの図
(b) すべての薬物と癌種における予測性能(PCC)
(c) WZ-1-84薬物と低悪性度神経膠腫の癌種における予測と実測値の散布図
(d) 薬物ブラインドテストの性能と薬物種類別のPCC
(e) 薬剤感受性細胞株における遺伝子セット濃縮解析の結果
この図は、scFoundation埋め込みがバルクレベルの遺伝子発現データに対して有益な情報を提供し、薬物反応予測の精度を向上させることを示すことを目的としている。
- scFoundationベースの結果と遺伝子発現ベースの結果を複数の薬剤とがん細胞株で比較したところ、ほとんどの薬剤とすべてのがんタイプでscFoundationの埋め込みを使用した方が高いPCCを達成し、最良のケースでは0.93以上のPCCを記録した。
- 薬剤ブラインドテストでは、scFoundationベースのモデルが一貫して元のモデルを上回る性能を示し、特にCDK阻害剤のPHA-793887ではPCCが0.07から0.73に改善された。
- 治療タイプ別の分析では、化学療法薬(抗腫瘍抗生物質やトポイソメラーゼ阻害剤など)の方が、標的治療薬(ATMやPARP阻害剤など)よりも高いPCCを示す傾向があった。これは遺伝子発現データと化学療法薬の関連性の高さを反映している可能性がある。
- 未知のCDR予測の妥当性検証のため、GSEAを実施したところ、例えばドキソルビシン感受性細胞株でスフィンゴ脂質シグナル経路の濃縮が、ボリノスタット感受性細胞株でmTORシグナル経路の濃縮が確認され、これらは既存の研究知見と一致していた。
- 以上から、scFoundation はもともと単一細胞トランスクリプトミクス データで事前トレーニングされていたが、学習した遺伝子関係はバルクレベルの発現データに転送可能で、凝縮された埋め込みを生成し、より正確な
予測を容易にすることが示された。IC_{50} - つまり、scFoundationの埋め込みを用いることで、バルクレベルの薬物反応予測の精度が向上することが示された。
- これは、scFoundationが、細胞の薬物反応に関わる重要な特徴を捉えていることを示唆する。
実験3 | 単一細胞薬物反応分類
- 単一細胞レベルでの薬剤感受性の推論は、異なる薬剤耐性特性を示す特定の細胞サブタイプを識別するのに役立ち、基礎となるメカニズムと潜在的な新しい治療法の発見につながる
- そこでSCADと呼ばれる下流モデルに基づいて、単一細胞レベルの薬剤応答分類という重要なタスクにscFoundationを適用した
- SCADでは、バルクデータで学習した知識を単一細胞レベルに転送して薬剤感受性を推論している
- 具体的に言えば、単一細胞の薬剤応答データが限られているため、SCADはドメイン適応を使用して単一細胞とバルクの違いを排除し、バルクデータで学習した知識を転送して単一細胞の薬剤感受性を推論した。
- このプロセスでは、バルクデータと単一細胞データの両方を入力として受け取り、各細胞の感受性を予測した出力を作成している
- そこでベースラインのSCADとの比較のために、微調整されていないscFoundationを使用してバルクデータと単一細胞データの統合された埋め込みを取得し、これらの埋め込みを使用してSCADモデルをトレーニングした
Fig. 4: 単一細胞薬物反応分類タスク(scFoundation 細胞埋め込みを使用)
scFoundation埋め込みを用いた単一細胞薬物反応分類タスクの結果を示す。
(a) scFoundationベースの単一細胞反応分類モデルの図
(b) 4種類の薬物に対するROC曲線
(c) 薬剤感受性確率とEpiSenスコアの相関
(d) SSC47単一細胞データセットのPCAプロット
(e) 薬剤感受性ラベルを用いたバルクデータセットのクラスタリング性能
この図は、scFoundation埋め込みが、バルクデータから単一細胞データへの薬理ゲノム情報の転移を促進し、単一細胞レベルでの薬物反応分類を可能にすることを示すことを目的としている。
- scFoundation ベースのモデルは、すべての薬剤でより高い AUC 値を達成し、NVP-TAE684 とソラフェニブでは AUC が 0.2 を超える大幅な改善が見られた。
- 4 つの薬剤すべてのベースライン結果は最高で 0.66 で、1 つの結果はランダムよりも悪く、タスクの難しさが浮き彫りになった。
- (中略)
- 以上から、scFoundation から得られた統合埋め込みによって、バルクデータと単一細胞データが統合表現空間に整列されることが示された。
- この統合表現により、感受性状態と耐性状態のデータが明確に区別され、下流モデルがバルク細胞株から単一細胞データに薬理ゲノミクス情報をより適切に転送することが容易になった。
実験4 | 摂動応答予測
- 細胞の摂動応答を理解することは、遺伝子間相互作用の特定や薬剤標的の発見につながるため、生物医学的応用や創薬において重要な意味を持つ。
- Perturb-seqのデータリソースを活用して細胞応答を予測するモデルの開発は、計算生物学における重要な課題の一つとされている。
- 著者らは、scFoundation を単一細胞解像度の摂動を予測するためのモデルである GEARS と組み合わせることで、単一細胞レベルでの摂動予測を実現した。
- 従来のGEARSモデルは、Gene Ontologyの知識グラフを用いて未知の遺伝子摂動を表現し、遺伝子の共発現グラフと摂動情報を組み合わせて摂動後の遺伝子発現を予測していた。
- そこで新手法では、scFoundationデコーダーから各細胞の遺伝子コンテキスト埋め込みを取得し、それをグラフのノードとして設定することで、細胞特異的な遺伝子共発現グラフを構築することが可能になった。
- 元の研究に従って、3 つの摂動データセットでモデルをトレーニングし、テストした。
Fig. 5: 摂動予測タスク(scFoundation 遺伝子コンテキスト埋め込みを使用)
scFoundation遺伝子コンテキスト埋め込みを用いた摂動応答予測タスクの結果を示している。
(a) scFoundationベースの摂動予測モデルの図
(b) 予測遺伝子発現と真の遺伝子発現間のMSE
(c) 予測値の分布の正確性
(d) ETS2 + CEBPE摂動における上位20遺伝子の発現変化
(e) 予測と真のmagnitudeスコアの相関
(f) シナジーとサプレッサータイプの遺伝子相互作用の予測結果
この図は、scFoundationから得られた細胞特異的な遺伝子コンテキスト埋め込みが、摂動予測のための貴重な基盤表現として機能することを示すことを目的とする。
- 摂動データには単一細胞レベルの真実が存在しなかったため、評価のために、遺伝子発現プロファイル前後の上位 20 個の差次的発現(DE)遺伝子の平均二乗誤差(MSE)を計算した。
- scFoundation ベースのモデルは、元の GEARS ベースライン モデルと比較して低い MSE 値を達成した。
- より困難な 2 遺伝子摂動予測では、モデルは 0/2 未観測ケースで最も低い平均 MSE を達成し、すべてのケースで GEARS および CPA モデルと呼ばれる別のベースラインを上回った。
- (中略)
- 以上から、scFoundationの遺伝子コンテキスト埋め込みは、摂動に対する細胞応答の予測に有効であることが示された。
- これは、scFoundationが、遺伝子間の相互作用や調節関係を学習できていることを示唆している。
実験5 | 細胞タイプの注釈
- 細胞型のアノテーションは単一細胞研究において重要。
- scFoundationの性能を評価するためにZheng68KデータセットとSegerstolpeデータセットを用いた実験を実施した。エンコーダーの単一レイヤーのみを微調整し、ラベル予測用のMLPヘッドを追加した。
- scFoundationを、CellTypist、scBERT、scANVI、ACTINN、Scanpy、SingleCellNetといった他の手法と比較ベンチマークした結果、両データセットにおいて最高のマクロF1スコアを達成した。特にCD4+ T helper 2やCD34+などの稀少な細胞型での性能向上が見られた。
- UMAPによる潜在埋め込みとPCA成分の可視化により、scFoundationは異なる細胞型間で明確な分離を示すことが確認された。
- scFoundationは遺伝子セット全体を入力として利用できる能力を持ち、遺伝子の部分集合や離散化された遺伝子発現を使用せざるを得ない他の手法と比べて、より正確なアノテーションが可能であることが示された。
実験6 | 遺伝子モジュールと遺伝子制御ネットワークの推定
- scFoundationは従来のバニラMLPモデルと比較して、遺伝子発現値をコンテキスト埋め込みに拡張する利点があり、これによりGEARSのようなグラフベースの下流メソッドの促進や遺伝子-遺伝子ネットワークの推論が可能となる。
- 単球、細胞傷害性CD8+ T細胞、B細胞という3つの免疫細胞タイプの遺伝子埋め込みを用いた検証により、scFoundationは各細胞タイプの差次的発現遺伝子モジュールを特定することができ、遺伝子エンリッチメント解析によってそれらの機能的関連性が確認された。
- T細胞の上位差次的発現遺伝子モジュール内で構築された遺伝子ネットワークの分析では、CD8分子の鎖をコードするCD8AとCD8B遺伝子が強い類似性を示す一方、S100A8遺伝子は他のT細胞マーカーとの相関が限定的であることが示された。
- SCENICを用いた遺伝子制御ネットワーク(GRN)の推論実験により、単球のKLF6、B細胞のSPIB、CD8+ T細胞のMXD4など、細胞特異的な制御因子が同定され、これらは過去の研究結果と一致していた。
【Discussion】
実験の考察
-
リード深度向上:
scFoundationは、リード深度の低いデータにおいても、遺伝子発現を高精度に予測できることが示された。これは、scFoundationが、異なるリード深度の細胞間の関係を学習できていることを示唆している。 -
薬物反応予測:
scFoundationの埋め込みを用いることで、バルクレベルの薬物反応予測の精度が向上することが示された。これは、scFoundationが、細胞の薬物反応に関わる重要な特徴を捉えていることを示唆している。 -
摂動応答予測:
scFoundationの遺伝子コンテキスト埋め込みは、摂動に対する細胞応答の予測に有効であることが示された。これは、scFoundationが、遺伝子間の相互作用や調節関係を学習できていることを示唆している。 -
細胞型注釈:
scFoundationは、高精度な細胞型注釈を実現できることが示された。これは、scFoundationが、細胞種を特徴づける遺伝子発現パターンを学習できていることを示唆している。
まとめ
- scFoundationは、単一細胞トランスクリプトミクスデータ解析のための強力な基盤モデルである。
- scFoundationは、リード深度の向上、薬物反応予測、摂動応答予測、細胞型注釈など、様々な下流タスクにおいて最先端の性能を達成する。
- scFoundationは、ファインチューニングなし、または軽量ファインチューニングで高い性能を達成できるため、ユーザーの計算負担を軽減できる。
課題
-
データの網羅性:
事前学習データは公開されているほぼすべてのヒトscRNA-seqデータを含んでいるが、ヒト臓器の発達や健康状態の複雑さを完全に反映するには不十分な可能性がある。 -
計算コスト:
事前学習には膨大な計算リソースが必要であり、効率化のための更なる最適化が必要。 -
データの種類:
現在のモデルはトランスクリプトミクスデータのみに焦点を当てており、ゲノムやエピゲノムデータは含まれていない。マルチオミクスデータの統合は今後の課題。 -
メタデータの未活用:
事前学習プロセスは教師なしで行われているため、メタデータの豊富な情報が活用されていない。メタデータをモデルに組み込むことで、細胞の分子特性と表現型を結びつけることができる可能性がある。
展望
-
より効果的な事前学習タスクの設計:
モデルの性能を向上させるためには、より効果的な事前学習タスクを設計する必要がある。 -
データセット特性の影響の調査:
様々なデータセット特性が学習性能に及ぼす影響を調査する必要がある。 -
単一細胞マルチオミクスデータへの対応:
単一細胞マルチオミクスデータから複雑な細胞の法則を解明できるモデルを開発する必要がある。 -
モデルの進化による分子システム理解の深化:
今後の研究により、scFoundationの限界や課題が克服され、より強力な基盤モデルが開発されることで、複雑な分子システムの解明とモデリングに新たな道が開かれるだろう。
【Methods】
手法と数式
-
Attention機構:
\text{Att}(Q, K, V) = D^{-1}AV A = \exp(\frac{QK^T}{\sqrt{d}}) D = \text{diag}(A1_k) この数式は、Transformerモデルの中核をなすAttention機構を表している。
-
はそれぞれクエリ、キー、バリューを表す行列であり、入力データの線形変換によって得られる。Q, K, V -
は埋め込み次元数である。d
Attention機構は、クエリとキーの類似度に基づいて、バリューの加重平均を計算することで、入力データの文脈情報を捉える。
scFoundationのエンコーダでは、このAttention機構を用いて遺伝子間の依存関係を学習する。
-
-
PerformerにおけるAttention機構:
\text{Att}(Q, K, V) = \bar{D}^{-1}(\phi(Q)(\phi(K))^TV) \bar{D} = \text{diag}(\phi(Q)(\phi(K))^T1_k) この数式は、Performerモデルで用いられるAttention機構を表している。
-
はカーネル関数であり、高次元空間での内積を近似することで、計算コストを削減する。\phi(・)
scFoundationのデコーダでは、このPerformerのAttention機構を用いて、全遺伝子間の関係を学習する。
-
-
リード深度向上のためのエンコーダの入力:
X_{\text{Enc-input}} = [E_{\text{input}}^{S_1}, E_{\text{input}}^{S_2}, ..., E_{\text{input}}^{S_K}] この式は、エンコーダへの入力を表している。
-
は非ゼロおよび非マスク値のインデックスセットS_\ell -
は遺伝子発現値と遺伝子名埋め込みの和から得られる入力埋め込みE_{\text{input}} -
はエンコーダの入力長K
リード深度の低い細胞では、エンコーダの入力長
は全遺伝子長の約10%程度になる。K -
-
デコーダの入力:
X_{\text{Dec-input}} = [X_{\text{inter}}, 0_{K_0}, M_{K_m}] \in R^{19266 \times d} この式は、デコーダへの入力を表している。
-
はエンコーダからの出力である中間埋め込みX_{\text{inter}} -
はゼロ埋め込み0_{K_0} -
はマスク埋め込みM_{K_m}
デコーダは全遺伝子長の入力を受け取る。
-
おわりに
本記事では、単一細胞トランスクリプトミクスデータを解析するための基盤モデル「scFoundation」について解説しました。
計算生物学の分野でも、大規模言語モデルの成功に触発された基盤モデルの開発が加速しています。特にscFoundationは、データのスパース性やリード深度の違いといった単一細胞データ特有の課題に対して、巧妙な工夫で対処していることが印象的でした。
一方で、計算コストの高さやマルチオミクスデータへの未対応など、課題も残されています。しかし、これらの課題が克服されれば、scFoundationは細胞の分子メカニズムの理解に新たな視点をもたらす可能性を秘めています。
医学生として研究に携わる中で、このような最新の解析手法をキャッチアップし、実際の研究に活用していくことの重要性を実感しています。本記事が、読者の皆様の研究活動の一助となれば幸いです。
なお、コードやモデルの重みはGitHubリポジトリで公開されています。興味のある方は、ぜひ試してみてください。
Discussion