WindowsでRNAseq解析 -fastqファイルから発現量算出まで-
本書では、RNAseq (網羅的遺伝子発現解析)の生データ (FASTQファイル)をWindows PCで処理する過程を紹介している。自身でできるようになれば時間も費用も節約できるので、これからの研究者はぜひ挑戦してみて欲しい。 RNAseqのパイプラインは様々あるが、昨今よく使用されているパイプラインである 『STARでのmapping → RSEMでの発現量算出』 を使用する。 具体的な流れとして、以下を解説する。 1. fastqファイルのクオリティチェック 2. fastqファイルのクオリティコントロル 3. 参照ゲノム配列へのマッピング 4. 遺伝子発現量の算出 さらに上記を複数サンプルに対して処理するコマンドや、shellスクリプトとして実行する例を紹介する。 ---------- なおこの手の解析は営利目的での利用もされているため実運用に大事な箇所は有料公開とさせていただきます。アカデミアの方は個別に相談頂ければと思います。 本書では発現マトリクスを作成するところまでしか紹介していません。発現マトリクスを使った発現変動遺伝子の解析などはこちらの本で紹介しています。 https://zenn.dev/rchiji/books/55a7b6a1777e4d
Chapters
はじめに
Toolのインストール
fastqc ~ fastqファイルのクオリティ確認 ~
fastp ~ fastqファイルのquality control ~
STAR ~ 参照ゲノム配列へのマッピング ~
RSEM ~ 発現量算出 ~
ゲノムブラウザでマッピング結果の可視化
複数サンプルの繰り返し処理1
複数サンプルの繰り返し処理2
複数サンプルの発現量データを1ファイルに集計
Rで遺伝子のアノテーション情報を付与
シェルスクリプト化
SRA Toolkitを使ってNCBI SRAからFASTQファイルを取得する
Reporter遺伝子をリファレンスゲノムに加える
2つの生物種が混ざったサンプル
ArrayExpressからlftpコマンドで巨大なデータをダウンロードする
EGAのDeposit dataをダウンロード
Author
Topics
- 公開
- 本文更新
- 文章量
- 約140,964字
- 価格
- 500円