STARのアライメント実行:リードをゲノム地図へ配置する旅
はじめに
前回の記事「STARのgenomeGenerate:RNA-seq解析を支えるゲノムの索引作り」では、STAR
がRNA-seqのリードをマッピング(アライメント)するための準備として、ゲノムの「索引」を作成するgenomeGenerate
ステップについて解説しました。
今回は、その準備した「索引」を実際に使って、RNA-seqで得られた大量のリード(塩基配列断片)をゲノム上の正しい位置に対応付ける、STAR
の主要な処理であるアライメント実行ステップについて、生物学的な観点から見ていきましょう。このステップは、STAR
のコマンドでは主にrunMode alignReads
というパラメータで実行されます。
STARのアライメント実行ステップとは?
genomeGenerate
ステップでゲノムの詳細な「地図」と「索引」を準備した後、いよいよRNA-seqで得られたリード群という「探検家たち」を、その地図上の正しい「出発地点」へと導く旅が始まります。これがSTARのアライメント実行ステップです。
具体的には、FASTQ形式で保存されているRNA-seqのリード配列を一つ一つ読み込み、genomeGenerate
で作成したインデックス情報を駆使して、各リードがゲノムDNAのどの部分から転写されてきた可能性が高いかを決定し、その結果をBAM/SAM形式のファイルに出力します。
何が行われているのか?(主要な処理)
アライメント実行ステップでは、主に以下の処理が連続的かつ高速に行われています。
1. リードの読み込み (FASTQファイルの解析)
まず、シーケンサーから出力されたFASTQファイルを読み込みます。このファイルには、個々のリードの塩基配列だけでなく、その配列の品質情報(ベースクオリティスコア)も含まれています。STAR
はこれらの情報を利用して、より信頼性の高いマッピングを目指します。
2. インデックスを利用した高速な候補位置検索
ここがSTAR
の真骨頂の一つです。genomeGenerate
で作成したゲノムのサフィックスアレイ(やそれに類する構造)を基にしたインデックスを利用し、各リード配列(またはその一部である「シード」と呼ばれる短い配列)がゲノム上のどこにマッチする可能性が高いかを、非常に高速に検索します。図書館の索引でキーワードを引くように、効率的に候補地を探し出します。
3. 詳細なアライメントとスプライスジャンクションの検出
高速検索で見つかった候補領域に対して、リード配列全体をより詳細にアライメントします。この際、以下の点が考慮されます。
- ギャップアライメント: 塩基のミスマッチ(ゲノムとリードの塩基が異なる)、インデル(リード側に数塩基の挿入や欠失がある)を許容しながら、最適なアライメント位置を探します。
-
スプライスジャンクションの検出: RNA-seqのリードは、イントロンが除去された後のエクソン-エクソン境界(スプライスジャンクション)をまたいでいることが多々あります。
-
genomeGenerate
時にアノテーション情報から既知のスプライスジャンクションをインデックスに含めていましたが、STAR
はそれだけでなく、アノテーションに記載されていない未知(新規)のスプライスジャンクションも検出しようと試みます。これにより、まだ知られていない転写バリアントを発見できる可能性があります。 - リードが複数のエクソンにまたがってマップされる場合、その間にイントロンが存在すると推定されます。
-
4. マッピング品質の評価
各リードがゲノム上の特定の位置にどれだけ確からしくマッピングされたかを示す「マッピングクオリティスコア (MAPQ)」を計算します。このスコアは、リードがゲノム上の複数の場所に同じようによくマップされてしまう(マルチマッピング)場合や、アライメントの質が低い場合に低くなります。下流の解析で、このスコアを利用して信頼性の低いマッピングを除外することがあります。
5. 出力ファイルの生成
全てのリードのマッピングが完了すると、その結果を標準的なフォーマットであるSAM(Sequence Alignment/Map)形式、またはそのバイナリ版であるBAM形式で出力します。BAMファイルはサイズが小さく、コンピュータでの処理も高速なため、一般的にこちらが利用されます。
その他にも、以下のような情報が出力されます。
- ログファイル: マッピングの統計情報(総リード数、マッピングされたリードの割合、ユニークにマッピングされたリードの割合など)。
- スプライスジャンクション情報ファイル: 検出されたスプライスジャンクションの位置、ストランド、モチーフなどの詳細情報。これは新規スプライスバリアントの探索などに有用です。
なぜこのステップが重要なのか?
このアライメント実行ステップは、RNA-seq解析における心臓部とも言える工程です。
- 下流解析の基礎データ: 生成されたBAMファイルは、遺伝子発現量の定量、発現変動遺伝子の特定、選択的スプライシングの解析、融合遺伝子の検出、バリアントコールなど、ほぼ全てのRNA-seq下流解析の出発点となります。
- 結果の信頼性: リードがゲノム上の本来の位置に正確にマッピングされているかどうかが、その後の解析結果全体の信頼性を大きく左右します。不正確なマッピングは、誤った遺伝子発現量の推定や、偽陽性のスプライスジャンクションの検出などに繋がる可能性があります。
生物学者にとっての意義
生物学者にとって、このステップは実験で得られた膨大なシーケンスデータという「生の素材」から、個々の遺伝子や転写産物の「活動の様子」を読み解くための最初の具体的な情報を得るプロセスです。
- リードの「出身地」の特定: どのリードがどの遺伝子から来たのか、あるいは遺伝子間の領域から来たのかを明らかにします。
- スプライシングの多様性の垣間見: 既知のスプライス部位だけでなく、細胞がその時々で行っている新規のスプライシングイベントの手がかりを得ることができます。これにより、特定の条件下でのみ発現するアイソフォームや、疾患に関連する異常なスプライシングを発見できる可能性があります。
STAR
には、マルチマッピングリード(ゲノム上の複数箇所に同様にマップされるリード)の扱い方や、スプライスジャンクション検出の感度など、挙動を調整するための様々なパラメータが用意されています。実験の目的やサンプル、期待される結果に応じてこれらのパラメータを適切に設定することも、より質の高い解析を行う上で重要です。
まとめ
STAR
のアライメント実行ステップは、genomeGenerate
で準備されたゲノムの「索引」を頼りに、RNA-seqリードをゲノム上の適切な位置へとマッピングする、RNA-seq解析の中核をなす処理です。このステップにより、リードの配列情報がゲノム上の位置情報と結び付けられ、遺伝子発現やスプライシングといった生命現象を読み解くための具体的なデータ(BAMファイル)が得られます。正確かつ効率的なアライメントが、その後の生物学的な洞察を深めるための鍵となります。
Discussion