🧬
SRAにFASTQファイルを登録したときの備忘録
はじめに
先日はじめてシーケンスリードアーカイブ(SRA)に投稿したので、その備忘録です。
シーケンスリードアーカイブ(SRA)ってなんですか?
シークエンスの生データを格納するリポジトリです。
Sequence Read Archive (SRA) データは、ハイスループットなシーケンスデータの世界最大の一般公開レポジトリです。SRAはシーケンスの生データとアライメント情報を保存し、データ解析による再現性の向上と新たな発見を促進します。
(https://www.ncbi.nlm.nih.gov/sra より一部引用)
情報源
- 投稿作業場所 (Submission Protal)
- クイックスタート (SRA Submission Quick Start)
- 投稿作業の全体像 (Making Submission in SRA Submission Portal)
今回のケース
投稿するデータはマウス尾のDNAをillumina iSeq 100にかけて得られたFASTQファイルです。
0. ログイン
- Submission Protalからログインします。
- Google Accountでも認証できるので便利です。
1. FASTQのアップロード
- 重たいファイル(>10GB)や数が多いファイル(>300)については、まずNCBIのサーバーにデータをアップロードすること(
preload option
)が推奨されています。 - 今回は100つくらいのファイルで、まあまあの数だったので
preload
を選択しました。 -
preload
の方法にもいろいろあるようですが、今回は使用経験のあるFTP upload
にしました。- IBM Aspera Connectを使うと高速に転送できるみたいです。
-
ncftp
コマンドの使い方はこちらを参考にしました。 - ファイル数や重さによりますが、数時間程度かかります。
ftp-upload.sh
ncftp
## おまじない
set passive on
set so-bufsize 33554432
## "FTP upload"のタブをクリックすると「パスワード」と「フォルダ名」が現れます。
open ftp://subftp:<パスワード>@ftp-private.ncbi.nlm.nih.gov
cd uploads/<フォルダ名>
mkdir -p <ユニークなフォルダ名>
cd <ユニークなフォルダ名>
put -R <FASTQが格納されているフォルダのパス>
2. GENERAL INFO
- 「BioProjectにすでに登録してあるサンプルですか?」と聞かれます。
- 今回は新規のデータなので
No
と答えます。
- 今回は新規のデータなので
- 「BioSampleにすでに登録してあるサンプルですか?」と聞かれます。
- 今回は新規のデータなので
No
と答えます。
- 今回は新規のデータなので
- Release dateは
Release on specified date or upon publication, whichever is first
を選択しました。- 最大で4年後まで公開を先延ばしにできます。
3. PROJECT INFO
-
Project title
とPublic description
を記載します。- 論文タイトルとアブストラクトをコピペすればOKだと思います。
- 正式なタイトルやアブストラクトが決まっていなくても後日修正できるので、とりあえず一文を埋めます。
4. BIOSAMPLE TYPE
- サンプルの情報を入れるにあたって適切なテンプレートを選びます。
- 今回は「mus musculus」と検索したら出てきた
Model organism or animal
を選びました。
5. BIOSAMPLE ATTRIBUTES
-
エクセルファイルをダウンロードして、情報を加筆します。
-
ペアエンドのサンプルはひとつのサンプルとして情報をまとめます。
- ペアエンドの情報は次の
SRA METADATA
に記載します。
- ペアエンドの情報は次の
-
以下、遭遇したエラーとその対応です。
6. SRA METADATA
- エクセルファイルをダウンロードして、情報を加筆します。
7. FILES
- 事前にアップロードしているので、フォルダ名を選択して
Continue
をします。
8. REVIEW & SUBMIT
- 例えば、ここで「2 GENERAL INFO」を修正するとその後の3-7まですべて
Continue
を押さないとこのページに戻ってこれません。面倒です。 - 投稿したら各項目を独立に修正できるので、とても簡単です。
投稿後
レビューワーアクセストークンの発行
- Submission PortalのMy submissionsに移動します。
- 投稿が終わっていれば
Status
の右上にManage data
というボタンが現れるので、それをクリックします。 - Manage Data >BioProject: XXXの右横に
Reviewer link
ボタンがあるので、それをクリックすることでレビューワー用のURLが発行されます。
BioSampleの更新
- 修正したエクセルファイルを添付して、以下のようなメールをbiosamplehelp[at]ncbi.nlm.nih.govに送りました。
- 1日で返信が来まして、3日以内に修正していただけました。
title: Update BioSample information
Dear BioSample staff,
We have recently uploaded our sequence data in SRA (PRJNA<番号>).
I am afraid that we would like to update the biosample information as
shown in the attached excel file.
We would be very grateful if you could help us.
Sincerely,
(おまけ)DRAとの比較
- SRAに対応する日本のデータベースとしてDRA (DDBJ Sequence Read Archive)があります。
- 以前(2021年5月)DARに投稿したときとの、SRAとの比較になります。個人的な感想です。
- 個人的にはSRAのほうが投稿画面がサクサク動いて快適なので、次回以降もSRAで投稿しようと思います。
項目 | SRA | DRA | メモ |
---|---|---|---|
簡便さ | ○ | ◎ | 両方とも簡単でした😀とくにDRAは日本語の情報があるのでより簡単に感じるかもしれません。 |
快適さ | ◎ | x | SRAはサクサク動いてとても快適でした。一方、DRAはページを遷移するだけで30秒くらいかかってかなりストレスでした。 いまは改善していることを切に願っています🙏 |
質問 | ○ | ◎ | SRAもDRAもメールで質問をすると迅速にご回答をいただけました。とくにDRAは日本語で質問できるのでありがたいです。 |
投稿後のデータへのアクセス | x | x | どちらも目的のFASTQファイルがどこにあるのか分かりづらいです😵💫 |
Discussion