🐁
2022年版TCGAからRNAseqデータ(カウントのみ)を入手する
雑感
最近のDL方法やデータの充実具合がわからなくなっていたのでまとめておく.
感覚的には以前と変わらないが, 臨床情報などが充実しているように思う.
2021年頃一時DLできなくなっていた病理画像が復活していてよかった(確かに名前みたいの入っていた画像とかあったし).
やりたいこと
- TCGAのRNAseqデータ(カウント, TPMとか)の取得
- FASTQやBAMではない
- さくっと遺伝子発現量解析のたたき台を用意したいときなど
流れ
DL
- portalに向かう
-
Exploration
に移動 - 左側から対象とするデータにチェックを入れる
- 最大1万ファイルまでしか同時にDLできないようなので全部DLは少々手間だし, 何より広げれば広げるだけふんわりした関係性しか得られなくなるので要絞り込み
- 右側の
View Files in Repository
に移動 - 左側で以下の項目にチェック
-
Data Type
のGene Expression Quantification
-
Experimental Strategy
のRNA-seq
-
Workflow Type
のSART - Counts
-
-
Add All Files to Cart
してからCart
に移動 -
Download
でRNAseqデータのDL開始 - 他に臨床情報や交絡要因補正用に以下もDLしておく
Biospecimen
Clinical
Sample Sheet
Metadata
- データが大量な場合はmanifestファイルをブラウザよりDLし, 指定のツールを使う必要がある
- windowsならGUI版(GDC Data Transfer Tool)が楽
- msiをDLして解凍して開いてUIに沿って行けばDL可能
- 指定先フォルダにばらばらとファイルごとのフォルダが溜まっていくため, settingでDL先は変えるべき
加工についての雑感
加工は後日別でまとめる.
TPMやらカウントデータから発現量データへの加工方法は様々で, デファクトスタンダードがない印象.
どこかのタイミングでlog2とることは確定なものの, RPKMかTPMか, 値に応じたtrimming, padding, などが悩ましいところ.
有名どこのconsortiumは以下のように行っている:
Discussion