de novo assembly解析のやり方(トランスクリプトームver)
ここではde novo assembly解析のやり方について解説する。
※勉強が進み次第まとめていく予定
はじめに
de novo assemblyとは
既存の参照ゲノム(リファレンス)がない状態で、生データ(リード)自体の情報のみを手掛かりにゲノム配列を再構築する解析手法。"de novo" はラテン語で「新たに」、「再び」を意味する語彙で "assembly"は「組み立てる」ことを意味する言葉である。
イメージとしてはパズルのピース(リード)を組み立てて作業に似ている。
リードから再構築されたゲノム配列の事を「コンティグ(contig)」という。
昆虫や植物を始めとする非モデル生物などリファレンスが確立していない生物種のゲノム解析をする場合や、新規の転写産物を探索するような研究でもこの手法は役立つ。
ゲノム配列とトランスクリプトームに対してする場合とでは原理が少し異なるので注意する必要がある。
※アセンブラーによって出力結果はバラバラ。
前処理
リードにはシーケンスの段階でノイズが含まれているので、これをクリーニングしてあげる必要がある。
品質管理
FastQCというツールを使用する
トリミング
Trimmomaticというツールを使用
品質管理
その後、先ほどと同様に品質管理を再度行う
FastQCとMultiQCを使用
アセンブリ
Trinityがよく使われている。
※アセンブラー他にもはたくさんある
アセンブリの評価
de novo assemblyで作成されたコンティグは本来未知の配列を頑張って復元している。しかし、そもそも元の状態である解答(本来の配列)は誰も分からないので,出力された結果(contig)が合っているかどうか知りようがないし,答え合わせ(評価)もしづらい。
そうは言っても、そのまま上手くいっているか怪しい状態では議論が甘い。
※何をもってコンティグ作成が成功したと言えるのか、その客観的根拠を出さなければ客観性と再現性を重視する科学ではに正しく論証できているとは見なされない。
苦し紛れではあるがある程度信頼できるだろう、と言える根拠を探すような感じにはなる。
1.転写産物の要約統計量
まずは、一般的な統計量の値から見ていく。
・N50
配列を長い順に並べて上から順に足していって,全体の長さの半分に達した際の配列の長さ(bp)のこと
得られた配列の分布を見つつ中間くらいの長さを表しているので,長い配列が多いとN50は大きくなるし,逆に長い配列が少なく短い配列が大量にあるとN50は小さくなる.アセンブルの際には復元したいゲノムに少しでも近づけるよう長い配列がたくさん得られると嬉しいので,N50はアセンブルの結果の良し悪しを判断する指標となっている.
→ N50は大きいほど、アセンブル精度が高い可能性が高いと判断
・平均長
2.マッピング率
3.冗長性の削除
CD-Hit-estを使用して冗長性を消す。
4.Busco
5.完全長
参考論文
※他にもcontig作成(アセンブリ)の精度を向上させる対策としては、異なる仕組み(アルゴリズム)で動くアセンブラーでそれぞれアセンブルするという方法もある。
これらで共通のcontigができたら、それは信頼性が高いのでは?という発想に基づいている。(「2次アセンブリ」という)
Discussion