0. シングルセル解析ことはじめ
シングルセル解析 (scRNA-seq)
2020年くらいから、通常の RNA-seq ではなく、シングルセル解析 (scRNA-seq)の分野が活発になっています。これは、細胞1個ずつ、バラバラにする「セルソーターの発展」と、R や Python を用いたデータの解析と視覚化がうまく噛み合った結果だと思います。
セルソーターはハードウェアの成果です。データ解析はソフトウェアの成果です。ハードとソフトの両方の発展があってのシングルセル解析でしょう。
ソフトウェアのほうは、少し前からディープラーニングや機械学習の盛り上がりがあったので、それが下地になっていると思います。ここでは、主にソフトウェア、データ解析の観点から、シングルセル解析を学習する人に役立つ情報を提供していきたいと思います。
シングルセル解析を本気でマスターしたいなら
scRNA-seq についての情報はたくさんありますが、本気でマスターしたいと思うのであれば、まずは、10x Genomics 社のドキュメントと、 R の解析パッケージの Seurat のドキュメントをチェックされるとよいです。どちらも非常に情報が充実しています。ここで紹介する情報のほとんどが、これらのサイトから得られたものです。
- 10x Genomics: セルソーターの Chromium を使ったシングルセル解析を提供。解析パイプライン Cell Ranger、ビューワーの Loupe Browser も提供。
- Seurat: 代表的なシングルセル解析のプログラム。UMAPクラスタリング、バイオリンプロット、散布図、ヒートマップ、インテグレーション、マルチモダル解析など。
シングルセル解析には、 R と Python のどちらを学べばいいの?
前述したように、シングルセル解析の代表的なプログラムである Seurat は、「R」の解析パッケージです。すでに、 RNA-seq を Bioconductor の環境で行っていたのであれば、 R を使って始めるのが良いでしょう。
近年では、機械学習や生成 AI で人気があるため Python のほうが慣れている方も多いと思います。 Python にもシングルセル解析の代表的なプログラムがあります。それが Scanpy です。
- Scanpy: Python でシングルセル解析を行う代表的なプログラム。UMAP クラスタリング、プロット、Trajectory, Spatial など。
ほかにも、 Python のパッケージが増え始めています。また、 Pseudotime や Velocity の計算では、 python のパッケージが先行していることも多いです。そもそもシングルセル解析のクラスタリングに用いられている tSNE や UMAP は機械学習分野の成果ですから、それらとの相性が良いのだと思います。
どちらから始めても大丈夫ですが、この先、Python が主流になるのではというのが個人的な見解です。
解析に役立ちそうなサイトやプログラムへのリンクを下記にまとめています。
Discussion