Open2

シングルセル解析 (scRNA-seq) のキーワード

d01d01

シングルセル解析でよく用いられる用語のついての簡略化した解説。
詳細は、本家のサイト (10x Genomics, Seurat) を参照。

10x Genomics 関連

  • Barcode: バーコード。シーケンス時、細胞単位で付与された短い塩基配列。タグ。
  • UMI: Unique Molecular Identifier。 バーコードと同義に使われていることもあるが、遺伝子ごとの区別を含んでいる。UMI count は、各細胞における各遺伝子のカウント結果。
  • Cell Ranger: 10x Genomics 社から提供されたパイプライン。fastq ファイルから、バーコードごと(細胞ごとに)遺伝子発現をカウントする。また、tSNE および UMAP アルゴリズムでクラスタリングした結果もサマリーとして出力される。カウントされた結果は、複数のフォーマットで出力できる。カウントに用いるリファレンス配列も 10x Genomics から提供されている。カスタムした配列でリファレンスを作成することも可能。
  • GEX: Gene Expression = 遺伝子発現解析。(mRNA のデータ)
  • TCR: T Cell Receptor = T細胞のレパトア解析。
  • BCR: B Cell Receptor = B細胞のレパトア解析。

ファイルフォーマット(拡張子)

  • .cloupe: ルーペブラウザ用のファイル。Cell Ranger でカウントして、クラスタリングした後に出力される。LoupeR パッケージを使って、 Seurat オブジェクトから生成できる。
  • .vloupe: TCR や BCR 用のブラウザである Loupe VDJ Browser 用のファイル。
  • .rds: R のオブジェクトの保存形式の1つである RDS ファイル。Seurat で解析した結果も RDS ファイルとして保存する。(RDS = seurat オブジェクトとは限らない。)
  • .RData: R のオブジェクトの保存形式の1つ。
  • .hdf5: サイズの大きい数値データ向けに考案された HDF5 フォーマットのファイル。python でよく用いられる。
  • .h5ad: 数値データにアノテーションを加えたデータセット anndata フォーマットのファイル。python で用いられる。

Seurat 関連

  • tSNE: クラスタリングに用いられるアルゴリズムの1つ。
    • ティーエスエヌイー、テスニーと読まれることが多い。
    • 手書き文字の認識など、機械学習によく用いられていたもの。
  • UMAP: クラスタリングに用いられるアルゴリズムの1つ。
    • ユーマップと読まれる。
    • tSNE より比較的計算時間が短い。機械学習に用いられていた。
d01d01

どこかに書いておきたいのは、「ライブラリ (library) 」という用語について。
これは、「実験」と「計算機」の両方の分野で使われるので、初学者には混乱を招くかもしれない。

実験分野(シーケンス)で、「ライブラリ」というと、検体から抽出後、シーケンス用に調整された RNA または DNA サンプルのこと。「同じライブラリ由来の異なるサンプル」というと、同じサンプルを用いて2回実験していることになる。

計算機(プログラム)の分野では、「ライブラリ」というと、複数の関数をまとめたパッケージのこと。「ライブラリから関数を読み込む」とか、「ライブラリとして公開されている」と言ったりする。

Cell Ranger のカウント時に、ライブラリーがどうのというのは、シーケンスの話。
R や Python の実行時のエラーメッセージで、ライブラリがないと表示されるのは、どこ由来のサンプルか分からない、という話ではない。念のため。