🙆‍♀️

楽曲のデータセットのライセンスについて調べた

2024/01/03に公開

概要

効果音(環境音)のデータセットと比べて、楽曲のデータセットはライセンスまわりの縛りが一気に厳しくなります。また、一部の楽曲系のデータセットはライセンスが明記されておらず、商用利用したいときに大変困ります。今回は楽曲系のデータセットのライセンスについて調べた結果を紹介します。

Magnatagatuneデータセット

Magnatagatuneデータセット自体にはライセンスに関する記述がありません。
https://paperswithcode.com/dataset/magnatagatune

今度はMagnatagatuneの論文を調べてみます。
https://www.cs.cmu.edu/~elaw/papers/tagatune.pdf

論文中でデータセットのオーディオはCCライセンスとあります。

The data currently served to the players consists of 56,670
short (~30 second) music clips from Magnatune.com and
28,715 sound clips from the FreeSound Database
(http://freesound.org). Broadly speaking, the genres of
music include classical, new age, electronica, rock, pop,
world music, jazz, blues, heavy metal, and punk. All audio
clips are provided under the Creative Commons License,
allowing for much less restrictive usage than other typical
music licenses.

オーディオファイルはMagnatune.comとFreeSound Databaseで提供されているとあります。まずMagnatune.comのサイトのライセンスの表記を見てみます。
http://magnatune.com/info/cc_licensed

こちらによるとライセンスは by-nc-sa v1.0 license のようです。ただし商用利用したい場合はライセンスを購入することができるようです。

ライセンスの購入に関する説明はこちらに書いてあります。
http://magnatune.com/info/licensing

FreeSound Databaseのライセンスは以下のページに記述があります。オーディオごとに商用利用可能なものと、不可能なもので分かれているようです。
https://freesound.org/help/faq/#wait-this-is-all-free

以上から、Magnatagatuneデータセットには商用利用不可なオーディオが入っている可能性があり、オーディオごとに判別しないといけないので、商用利用するにはかなり難しそうです。Magnatagatuneはサイズも手ごろで、簡単にダウンロードでき、利用事例も多いだけに残念なところです。

MSD(Million Song Dataset)

MSDもよく使われている楽曲のデータセットです。こちらもライセンスはUnknownとなっています。
https://paperswithcode.com/dataset/msd

MSDの公式サイト
http://millionsongdataset.com/

ライセンスまわりはFAQのページに記載があります。
http://millionsongdataset.com/faq/

What are the licensing terms?

The Echo Nest data is released under the same terms of use as their API. For a more readable version of the TOS, please read their ground rules. Put simply, if you are a researcher and want to publish results on the dataset, you are fine. If you are a company and are concerned about experimenting on the dataset, send an email to Paul at The Echo Nest.
Regarding the MusicBrainz data contained in the dataset, the track 'year' is under public domain and the 'tags' and 'tag count' are under Attribution-NonCommercial-ShareAlike 2.0 license.
Regarding the SecondHandSongs dataset, see its webpage.
Regarding the musiXmatch dataset, see its webpage.
The code is released under GNU Public License.

データの中身ごとにライセンスが分かれているようで、研究目的以外で使うのは難しそうです。またデータセットには特徴量しか含まれておらず、元の音声ファイルは別の方法で入手する必要があります。

MusicCaps

MusicCapsは楽曲と説明文がセットになったデータセットです。テキストから楽曲を生成する研究で利用されています。MusicCapsデータセットのライセンスはCC BY-SA 4.0なので商用利用可能です。MusicLMという論文と一緒に公開されました。Google Researchから出ているので出所がはっきりしています。また2023年に登場したデータセットなので扱いやすい上に、ライセンスも記載があります。欠点は5.5Kしか曲数が無い点です。こちらはAudioSetのサブセットとなっているようです。
https://paperswithcode.com/dataset/musiccaps

AudioSet

AudioSetデータセットのライセンスはCC BY 4.0です。こちらもGoogle Researchから出ています。
https://paperswithcode.com/dataset/audioset

AudioSetは効果音、スピーチ、楽曲などが大量に入ったデータセットです。中の音声の数は公式サイトに載っています。Musicだけでも100万曲あるようです。こちらはタグ(クラス)のみ付いています。
https://research.google.com/audioset/index.html

AudioSetはデータセットに関する論文が出ているのでこちらを読むと中身が理解できます。
https://ieeexplore.ieee.org/document/7952261

Discussion