💊

PDBファイルのダウンロード

2022/09/03に公開

背景

様々なタンパク質の構造データが必要であったため、PDB (Protein Data Bank) のデータをローカルにダウンロードしてみた。

PDBダウンロード方法

こちらのサイトにしたがって、
https://pdbj.org/info/archive
このコマンドでダウンロード(ディレクトリの同期が)できる。

rsync -avz --delete ftp.pdbj.org::ftp_data/structures/divided/pdb/ ./pdb

ダウンロードされたファイルを見てみると、以下の通り複数のディレクトリに分割されている。

$ ls
00  1b  37  56  75  93  ae  b1  bo  cb  cy  ...

さらにそのディレクトリの中を見ると、以下のようになっている。

$ ls pdb/ab/
pdb1ab0.ent.gz  pdb1abs.ent.gz  ...

PDBは4文字の英数字で表されるが、その真ん中の2文字でディレクトリが分割されている(上記はab)。なぜ頭2文字ではなく真ん中2文字なのかは理由はわからない(要調査、時間があれば)。

PDBダウンロード方法(失敗)

一方でディレクトリ構成の詳細を見てみると、
https://pdbj.org/help/data_download
ディレクトリ分割されていないディレクトリ(divided->all)もあるため、こちらでダウンロードしてみる。

rsync -avz --delete ftp.pdbj.org::ftp_data/structures/all/pdb/ ./pdb

すると、実はこれらはdividedディレクトリ内へのファイルへのリンクになっていて、実体はダウンロードできない。

$ ls -lh ./pdb/
lrwxrwxrwx 1 xxx xxx 35  68  2017 pdb2l8s.ent.gz -> ../../divided/pdb/l8/pdb2l8s.ent.gz

まとめ

  • 全PDBファイルはftp.pdbj.org::ftp_data/structures/divided/pdb/からrsyncでダウンロードできる
  • ダウロードしたファイルはPDB IDの真ん中の2文字の名前のディレクトリで分けて格納される

Discussion