💊
PDBファイルのダウンロード
背景
様々なタンパク質の構造データが必要であったため、PDB (Protein Data Bank) のデータをローカルにダウンロードしてみた。
PDBダウンロード方法
こちらのサイトにしたがって、
このコマンドでダウンロード(ディレクトリの同期が)できる。rsync -avz --delete ftp.pdbj.org::ftp_data/structures/divided/pdb/ ./pdb
ダウンロードされたファイルを見てみると、以下の通り複数のディレクトリに分割されている。
$ ls
00 1b 37 56 75 93 ae b1 bo cb cy ...
さらにそのディレクトリの中を見ると、以下のようになっている。
$ ls pdb/ab/
pdb1ab0.ent.gz pdb1abs.ent.gz ...
PDBは4文字の英数字で表されるが、その真ん中の2文字でディレクトリが分割されている(上記はab
)。なぜ頭2文字ではなく真ん中2文字なのかは理由はわからない(要調査、時間があれば)。
PDBダウンロード方法(失敗)
一方でディレクトリ構成の詳細を見てみると、divided
->all
)もあるため、こちらでダウンロードしてみる。
rsync -avz --delete ftp.pdbj.org::ftp_data/structures/all/pdb/ ./pdb
すると、実はこれらはdivided
ディレクトリ内へのファイルへのリンクになっていて、実体はダウンロードできない。
$ ls -lh ./pdb/
lrwxrwxrwx 1 xxx xxx 35 6月 8 2017 pdb2l8s.ent.gz -> ../../divided/pdb/l8/pdb2l8s.ent.gz
まとめ
- 全PDBファイルは
ftp.pdbj.org::ftp_data/structures/divided/pdb/
からrsync
でダウンロードできる - ダウロードしたファイルはPDB IDの真ん中の2文字の名前のディレクトリで分けて格納される
Discussion