🧬

SRAにFASTQファイルを登録したときの備忘録

2022/09/05に公開

はじめに

先日はじめてシーケンスリードアーカイブ(SRA)に投稿したので、その備忘録です。

シーケンスリードアーカイブ(SRA)ってなんですか?

シークエンスの生データを格納するリポジトリです。

Sequence Read Archive (SRA) データは、ハイスループットなシーケンスデータの世界最大の一般公開レポジトリです。SRAはシーケンスの生データとアライメント情報を保存し、データ解析による再現性の向上と新たな発見を促進します。
https://www.ncbi.nlm.nih.gov/sra より一部引用)

情報源

今回のケース

投稿するデータはマウス尾のDNAをillumina iSeq 100にかけて得られたFASTQファイルです。

0. ログイン

  • Submission Protalからログインします。
  • Google Accountでも認証できるので便利です。

1. FASTQのアップロード

  • 重たいファイル(>10GB)や数が多いファイル(>300)については、まずNCBIのサーバーにデータをアップロードすること(preload option)が推奨されています。
  • 今回は100つくらいのファイルで、まあまあの数だったのでpreloadを選択しました。
  • preloadの方法にもいろいろあるようですが、今回は使用経験のあるFTP uploadにしました。
  • ncftpコマンドの使い方はこちらを参考にしました。
  • ファイル数や重さによりますが、数時間程度かかります。
ftp-upload.sh
ncftp
## おまじない
set passive on
set so-bufsize 33554432

## "FTP upload"のタブをクリックすると「パスワード」と「フォルダ名」が現れます。
open ftp://subftp:<パスワード>@ftp-private.ncbi.nlm.nih.gov
cd uploads/<フォルダ名>
mkdir -p <ユニークなフォルダ名>
cd <ユニークなフォルダ名>
put -R <FASTQが格納されているフォルダのパス>

2. GENERAL INFO

  • 「BioProjectにすでに登録してあるサンプルですか?」と聞かれます。
    • 今回は新規のデータなのでNoと答えます。
  • 「BioSampleにすでに登録してあるサンプルですか?」と聞かれます。
    • 今回は新規のデータなのでNoと答えます。
  • Release dateはRelease on specified date or upon publication, whichever is firstを選択しました。
    • 最大で4年後まで公開を先延ばしにできます。

3. PROJECT INFO

  • Project titlePublic descriptionを記載します。
    • 論文タイトルとアブストラクトをコピペすればOKだと思います。
    • 正式なタイトルやアブストラクトが決まっていなくても後日修正できるので、とりあえず一文を埋めます。

4. BIOSAMPLE TYPE

  • サンプルの情報を入れるにあたって適切なテンプレートを選びます。
  • 今回は「mus musculus」と検索したら出てきたModel organism or animalを選びました。

5. BIOSAMPLE ATTRIBUTES

  • エクセルファイルをダウンロードして、情報を加筆します。

  • ペアエンドのサンプルはひとつのサンプルとして情報をまとめます。

    • ペアエンドの情報は次のSRA METADATAに記載します。
  • 以下、遭遇したエラーとその対応です。

6. SRA METADATA

  • エクセルファイルをダウンロードして、情報を加筆します。

7. FILES

  • 事前にアップロードしているので、フォルダ名を選択してContinueをします。

8. REVIEW & SUBMIT

  • 例えば、ここで「2 GENERAL INFO」を修正するとその後の3-7まですべてContinueを押さないとこのページに戻ってこれません。面倒です。
  • 投稿したら各項目を独立に修正できるので、とても簡単です。

投稿後

レビューワーアクセストークンの発行

  • Submission PortalのMy submissionsに移動します。
  • 投稿が終わっていればStatusの右上にManage dataというボタンが現れるので、それをクリックします。
  • Manage Data >BioProject: XXXの右横にReviewer linkボタンがあるので、それをクリックすることでレビューワー用のURLが発行されます。

BioSampleの更新

  • 修正したエクセルファイルを添付して、以下のようなメールをbiosamplehelp[at]ncbi.nlm.nih.govに送りました。
  • 1日で返信が来まして、3日以内に修正していただけました。
title: Update BioSample information

Dear BioSample staff,

We have recently uploaded our sequence data in SRA (PRJNA<番号>).
I am afraid that we would like to update the biosample information as
shown in the attached excel file.
We would be very grateful if you could help us.

Sincerely,

(おまけ)DRAとの比較

項目 SRA DRA メモ
簡便さ 両方とも簡単でした😀とくにDRAは日本語の情報があるのでより簡単に感じるかもしれません。
快適さ x SRAはサクサク動いてとても快適でした。一方、DRAはページを遷移するだけで30秒くらいかかってかなりストレスでした。 いまは改善していることを切に願っています🙏
質問 SRAもDRAもメールで質問をすると迅速にご回答をいただけました。とくにDRAは日本語で質問できるのでありがたいです。
投稿後のデータへのアクセス x x どちらも目的のFASTQファイルがどこにあるのか分かりづらいです😵‍💫

Discussion