😸

Million Song DatasetのSubset(full)をダウンロードする方法

2023/12/27に公開

Million Song Datasetとは?

Million Song Datasetはメタデータの付いた楽曲を集めたデータセットです。
http://millionsongdataset.com/

本体とSubsetについて

Million Song Datasetの本体は数百GBと非常に大きいので直接ダウンロードすることができません。こちらのダウンロードにはAWSのEC2インスタンスを用意する必要があります。
http://millionsongdataset.com/pages/getting-dataset/

簡単に試す方法としてSubsetが用意されています。こちらは10000曲だけを集めたものです。Subsetは公式ページからダウンロードできるのですが、こちらはh5ファイルしか入っていません。txtやtsvファイルが入っていないのです。こちらが入ったものがmillionsongsubset_full.tar.gzというファイルのようです。今回はこちらをダウンロードしてみます。
https://academictorrents.com/details/e0b6b5ff012fcda7c4a14e4991d8848a6a2bf52b

academictorrentsを使ったダウンロード

academictorrentsを使うとダウンロードできるようです。pip installでインストールしてからat-getコマンドで先ほどのacademictorrentsのキーを指定するとダウンロードが始まりました。

$ pip install academictorrents
$ at-get e0b6b5ff012fcda7c4a14e4991d8848a6a2bf52b

時間はかかりましたがダウンロードできました。

-rw-r--r-- 1 root     root     1994614463 12月 27 14:14 millionsongsubset_full.tar.gz
-rw-r--r-- 1 root     root     1981914968 12月 25 18:21 millionsongsubset.tar.gz

Discussion