🐁

2022年版TCGAからRNAseqデータ(カウントのみ)を入手する

2022/11/12に公開

雑感

最近のDL方法やデータの充実具合がわからなくなっていたのでまとめておく.
感覚的には以前と変わらないが, 臨床情報などが充実しているように思う.
2021年頃一時DLできなくなっていた病理画像が復活していてよかった(確かに名前みたいの入っていた画像とかあったし).

やりたいこと

  • TCGAのRNAseqデータ(カウント, TPMとか)の取得
  • FASTQやBAMではない
  • さくっと遺伝子発現量解析のたたき台を用意したいときなど

流れ

DL

  1. portalに向かう
  2. Explorationに移動
  3. 左側から対象とするデータにチェックを入れる
    • 最大1万ファイルまでしか同時にDLできないようなので全部DLは少々手間だし, 何より広げれば広げるだけふんわりした関係性しか得られなくなるので要絞り込み
  4. 右側のView Files in Repositoryに移動
  5. 左側で以下の項目にチェック
    • Data TypeGene Expression Quantification
    • Experimental StrategyRNA-seq
    • Workflow TypeSART - Counts
  6. Add All Files to CartしてからCartに移動
  7. DownloadでRNAseqデータのDL開始
  8. 他に臨床情報や交絡要因補正用に以下もDLしておく
    • Biospecimen
    • Clinical
    • Sample Sheet
    • Metadata
  9. データが大量な場合はmanifestファイルをブラウザよりDLし, 指定のツールを使う必要がある
    • windowsならGUI版(GDC Data Transfer Tool)が楽
    • msiをDLして解凍して開いてUIに沿って行けばDL可能
    • 指定先フォルダにばらばらとファイルごとのフォルダが溜まっていくため, settingでDL先は変えるべき

加工についての雑感

加工は後日別でまとめる.
TPMやらカウントデータから発現量データへの加工方法は様々で, デファクトスタンダードがない印象.
どこかのタイミングでlog2とることは確定なものの, RPKMかTPMか, 値に応じたtrimming, padding, などが悩ましいところ.
有名どこのconsortiumは以下のように行っている:

  • GTExではRPKM > 0.1のみを使い, RPKMに2を加えた後にlog2
    • RPKM < 0.1のgeneの扱いは詳説されていない
  • MAQC/SEQC一部の論文ではRPKMのmean 0を0置換してから最小値の5/6倍したものでpaddingしてlog2

Discussion