🐥

【シングルセル解析】[Seurat] scRNAseq公開データ読み込み例 ~ Cellranger countの出力~

2023/02/22に公開

1件

前置き

scRNAseqデータはfastqファイルが巨大なためかfastqファイルでの公開は減ってきて、1次処理したファイル (cellrangerのoutputや単純な発現マトリクス、解析データも含めたannData、rdsファイルなど)がGEOやZenodo、各国管理のデポジット先に様々な形式で落ちている。
全くもって統一されていないので、まずは読み込むことに時間を喰う。本記事では自身が経験したデータ読み込み例をここに追記していく。

この記事はCellranger countの出力ファイルを主に扱う。その他ファイル形式のものはそれぞれの記事に記録する。

cellranger countの3つの出力ファイル

cellranger countでfastqファイルの処理をすると、filtered_feature_bc_matrixフォルダに以下の3つのファイルが生成される。

barcodes.tsv.gz
features.tsv.gz
matrix.mtx.gz

cellranger count, cellranger multiのやり方は以下の記事で紹介した。

SeuratのRead10X()機能ではこの3つのファイルが入ったフォルダのパスを指定する。

GEOなどの公共データからダウンロードした場合、prefixにサンプルごとの識別名がつくことがあるが、面倒なことにRead10X()はファイル名がcellrangerのデフォルト出力と一字一句同じでなければ認識しない。

例) GSE181304

1サンプル分のcellranger outputがdepositされていた。3つのファイルのprefixにGSM番号が付与されている。

Read10Xでの読み込み

このままではファイルがmissingであるとエラーがでる。

簡単な対策としてはファイル名を編集してGSM番号の箇所を消せば良い。この例ではprefixが_で繋がっていたので、_で文字列を分割して、2番目の要素を使用した。

Rからファイル名を変更

fromname <- dir(path = ".", pattern = ".gz")
toname <- stringr::str_split(string = fromname, pattern = "_", simplify = T)[,2]
file.rename(from = fromname, toname)

mat <- Read10X(data.dir = getwd())

ReadMtx機能で1ファイルずつ指定して読み込み

ReadMtx()機能であればファイル名のルールに縛られなくてよい。

ReadMtx機能で3つのファイルを明示的に指定して読み込み

mat2 <- ReadMtx(mtx = "GSM5494566_matrix.mtx.gz",
                cells = "GSM5494566_barcodes.tsv.gz",
                features = "GSM5494566_features.tsv.gz")

ReadMtx()で3つのファイルを指定する引数以外のオプションはデフォルトのままでRead10X()と同じ出力が得られた。

例) heiData, VRJUNV

https://doi.org/10.11588/data/VRJUNV

cellranger countの3つの出力ファイルが入ったzipフォルダがサンプル数 (12個)分depositされている。
Read10X()はzipファイルを読めなかったので、zipは解凍しておく。

depositされていたsample_sheetファイルを見ると、cellrangerのversionが2.1.1で処理されたものと3.0.2で処理されたものが混ざっている。

cellrangerはversionによってファイル名が変わっており、現行のfeatures.tsvファイルが古いversionではgenes.tsvファイルとなっている。

DLBCL1フォルダの中身

DLBCL3フォルダの中身

またcellranger countの3つの出力ファイルはgz圧縮された状態のはずだが、このdeposit dataでは解凍されている。

実際にRead10X()でサンプルフォルダを引数に読み込んでみると、何故かcellranger ver 2.1.1の出力はgz無しでもRead10X()で読めたのだが、ver 3.0.2の出力はgz無しだとRead10X()では読めなかった。

ver2.1.1のDLBCL1の読み込みとver3.0.2のDLBCL3の読み込み画面

しかし、ReadMtx()機能ではどちらのcellranger versionでも読むことができた。

最終コマンド

最終的に以下の流れで読み込み成功。(zipファイルから開始する想定)

data_dir <- "ダウンロードした12検体分のデータが入ったフォルダへのパス"

# 各サンプルのパスを取得
samplepaths <- dir(path = data_dir, 
                   pattern = "zip",
                   full.names = T)

# 各サンプルの識別名を作成
samplenames <- dir(path = data_dir, 
                    pattern = "zip")
(samplenames <- gsub(pattern = ".zip", replacement = "", x = samplenames))

# 各サンプルをfor loopで読み込んで保存する先の空リストを用意
sclist <- vector(mode = "list", length = length(samplenames))
names(sclist) <- samplenames

# meta情報もdepositされていたのでmeta.dataスロットへ反映させるために使用する。
meta <- read.csv(file = paste(data_dir, "sample_sheet.csv",sep = "/"))

# for loopで以下を全サンプルをSeuratオブジェクトに変換する。
for (i in 1:length(samplenames)) {
  # zipを解凍
  unzip(samplepaths[i], overwrite = T)
  
  # ReadMtxの引数を用意。(3つのファイルへのパス)
  mtx <- paste(samplenames[i], "matrix.mtx", sep = "/")
  cells <- paste(samplenames[i], "barcodes.tsv", sep = "/")
  features <- paste(samplenames[i], "genes.tsv", sep = "/")
  
  # cellranger versionの違いでfeatures.tsvかgenes.tsvか変わるので、if文で対応
  if (file.exists(features) == FALSE){
    features <- paste(samplenames[i], "features.tsv", sep = "/") 
  }
  
  # 発現マトリクスを読み込み
  x <- ReadMtx(mtx = mtx, cells = cells, features = features)
  
  # zip解凍したフォルダを削除
  unlink(samplenames[i], recursive = TRUE)
  
  # Seuratオブジェクトに変換
  x <- CreateSeuratObject(x, project = samplenames[i])
  # meta.dataスロットにメタ情報を記録
  x <- AddMetaData(object = x, metadata = rep(x = meta[meta$SampleName == samplenames[i],], times = ncol(x)))
  
  # リストのi番目の要素として保存
  sclist[[i]] <- x
}

Discussion

Ryota Chijimatsu 2023/05/19

230519 記事が長くなってきたので、depositファイル形式ごとに記事を分けました。