楽曲のデータセットのライセンスについて調べた
概要
効果音(環境音)のデータセットと比べて、楽曲のデータセットはライセンスまわりの縛りが一気に厳しくなります。また、一部の楽曲系のデータセットはライセンスが明記されておらず、商用利用したいときに大変困ります。今回は楽曲系のデータセットのライセンスについて調べた結果を紹介します。
Magnatagatuneデータセット
Magnatagatuneデータセット自体にはライセンスに関する記述がありません。
今度はMagnatagatuneの論文を調べてみます。
論文中でデータセットのオーディオはCCライセンスとあります。
The data currently served to the players consists of 56,670
short (~30 second) music clips from Magnatune.com and
28,715 sound clips from the FreeSound Database
(http://freesound.org). Broadly speaking, the genres of
music include classical, new age, electronica, rock, pop,
world music, jazz, blues, heavy metal, and punk. All audio
clips are provided under the Creative Commons License,
allowing for much less restrictive usage than other typical
music licenses.
オーディオファイルはMagnatune.comとFreeSound Databaseで提供されているとあります。まずMagnatune.comのサイトのライセンスの表記を見てみます。
こちらによるとライセンスは by-nc-sa v1.0 license のようです。ただし商用利用したい場合はライセンスを購入することができるようです。
ライセンスの購入に関する説明はこちらに書いてあります。
FreeSound Databaseのライセンスは以下のページに記述があります。オーディオごとに商用利用可能なものと、不可能なもので分かれているようです。
以上から、Magnatagatuneデータセットには商用利用不可なオーディオが入っている可能性があり、オーディオごとに判別しないといけないので、商用利用するにはかなり難しそうです。Magnatagatuneはサイズも手ごろで、簡単にダウンロードでき、利用事例も多いだけに残念なところです。
MSD(Million Song Dataset)
MSDもよく使われている楽曲のデータセットです。こちらもライセンスはUnknownとなっています。
MSDの公式サイト
ライセンスまわりはFAQのページに記載があります。
What are the licensing terms?
The Echo Nest data is released under the same terms of use as their API. For a more readable version of the TOS, please read their ground rules. Put simply, if you are a researcher and want to publish results on the dataset, you are fine. If you are a company and are concerned about experimenting on the dataset, send an email to Paul at The Echo Nest.
Regarding the MusicBrainz data contained in the dataset, the track 'year' is under public domain and the 'tags' and 'tag count' are under Attribution-NonCommercial-ShareAlike 2.0 license.
Regarding the SecondHandSongs dataset, see its webpage.
Regarding the musiXmatch dataset, see its webpage.
The code is released under GNU Public License.
データの中身ごとにライセンスが分かれているようで、研究目的以外で使うのは難しそうです。またデータセットには特徴量しか含まれておらず、元の音声ファイルは別の方法で入手する必要があります。
MusicCaps
MusicCapsは楽曲と説明文がセットになったデータセットです。テキストから楽曲を生成する研究で利用されています。MusicCapsデータセットのライセンスはCC BY-SA 4.0なので商用利用可能です。MusicLMという論文と一緒に公開されました。Google Researchから出ているので出所がはっきりしています。また2023年に登場したデータセットなので扱いやすい上に、ライセンスも記載があります。欠点は5.5Kしか曲数が無い点です。こちらはAudioSetのサブセットとなっているようです。
AudioSet
AudioSetデータセットのライセンスはCC BY 4.0です。こちらもGoogle Researchから出ています。
AudioSetは効果音、スピーチ、楽曲などが大量に入ったデータセットです。中の音声の数は公式サイトに載っています。Musicだけでも100万曲あるようです。こちらはタグ(クラス)のみ付いています。
AudioSetはデータセットに関する論文が出ているのでこちらを読むと中身が理解できます。
Discussion