🐳

オープンデータセットのライセンスガイド

2024/12/05に公開

オープンデータセットが必要だ

機械学習は数多くのコミュニティが交わりつつ発展しています。機械学習モデルを限られた人員や時間の中で円滑に作成するには、情報資源を有効に活用する必要があり、オープンソースだけではなく、データも再利用しやすい形で公開するオープンデータセットの必要性が急速に高まっています。

しかし、OSS精神あふれる開発者が huggingface 等のプラットフォームを用いてデータセットを公開したいと考えても、数多くあるライセンスの中でどのライセンスを選択すれば良いのか、そもそも何を公開して良いのかというのは、非常に悩ましい問題であり、データセットを公開するハードルは高くあり続けています。公開に足踏みするために、データセットがコミュニティ内部でのみ使用されているケースが数多くある状況を、もったいないと感じ、そのような問題意識の上で本稿を執筆しました。

本稿では、データセット向けのライセンスについて、データセットを公開するための条件や、ライセンスの選択における選択肢について書いていきます。

私自身開発者としてデータセットを公開したいと思ったのですが、公開の上でいくつかの問題に突き当たり、この記事を執筆しています。私はこの分野については初心者であり、法律の専門家ではありません。同様の問題に悩む開発者様たちのために書いておりますので、不適切な点がございましたら有識者からの優しいご指摘をお待ちしています。(特に、気づかぬうちに法律用語の誤用をしていることを懸念しております。)連絡は twitterまでお願いします。正確性、簡潔性を高めるために適宜更新予定です。

読者の皆様に関しましては、当記事は間違いを含む可能性があること、筆者は一切の責任を取れないこと、将来の読者に関しては、この記事は2024年12月4日時点の日本法をもとに執筆していることをご留意ください。

データセットに著作権はない

まず前提として、日本法において、ほとんどのデータセットは著作物とは認められず、したがってデータセットの作者に著作権はありません。「ほとんど」の部分については後述することにして、先に、どうしてデータセットに対して著作権が認められないのかを紐解いていきましょう。

まず、著作権はどのようなときに認められるのでしょうか? 著作権は、著作物を創作した時に著作者に対して自動的に生じる権利です。(ここで「自動的に」と書いてるのは、特許権や商標権などの知的財産権は手続きを必要とすることとの対比です。)

著作権が発生するためには、まず作られた物が著作物である、ということが必要です。著作物とは、「思想又は感情を創作的に表現したものであって,文芸,学術,美術又は音楽の範囲に属するもの」(著作権法第2条1項1号)です。著作物であると判断されるためには、いくつかの条件を同時に満たす必要があり、その条件の一つに創作性があります。ここで、他人の作品の模倣品など創作が加わっていないものや、だれが表現しても同じものになるようなありふれたものは、創作性がないとみなされます。著作物ではないとされるものには、データセットのほかに、単なるデータや、実用性のある工業製品、単なるアイデアなどがあります。

先ほど、「ほとんどのデータセットは著作物とは認められない」と述べましたが、そこにおける例外はデータセットが、データベースとして創作性が認められて著作物とみなされる場合です。例えば、タウンページデータベース事件(東京地裁平成12.3.17判決)では、職業分類に基づく体系的な構成に創作性が認められ、タウンページデータベースが著作物であるという判決を受けました。つまり、データセットが独自の基準においてデータを選定、体系化している場合、データベースとして創作性が認められる場合があります。ここで特定のデータベースに創作性が認められるかどうかは、専門家でも意見が分かれることがあるほど難しい問題でもありますので、詳しくは、こちらのジャーナル を参考にしてください。

また、EUを中心とした諸外国では、データベースに、データベース権を認める場合があります。これは著作権が必要とする創造性をデータベースが持たない場合であっても、データベースのために行われた投資を認め、データベースを保護する権利です。ただ、このデータベース権は日本法では認められていません。

結論としてまとめると、多くのケースでデータセットには著作権がありません。

データセットが著作物を含むときは

データセット自体は著作物ではありませんが、データセットが著作物を含むケースは数多くあります。

例えば、データセットが風景写真を含む場合、写真の撮影者には著作権があります。もし、データセットが、著作物の音声を含む場合、その音声の著作権は著作権者にあります。加えて、実演者(声優さん)は、著作隣接権を持っています。

他人の著作物を利用したい場合は、権利者から利用の許諾を得るか、権利者から著作権を譲り受けることが原則となっており、誰かが著作権を侵害した場合、著作権者は民事や刑事による請求を求めることができます。

ではここで、著作物を含むデータセットを、著作権者や著作隣接権の許諾無しに事前学習に利用したり、インターネットで公開したりすることは可能なのでしょうか?

著作物は情報解析に利用して良い

著作物を含むデータセットを、著作権者や著作隣接権の許諾無しに事前学習に利用したり、インターネットで公開したりすることは可能です。

これは、著作権法第30条の4で、情報解析の用に供する場合は著作物を著作者による許諾無しに利用してよいと定められているためです。つまり、著作物の情報解析を規制する権利は著作権には含まれていません。

機械学習に関する議論に興味がある方なら必ず一度は聞いたことがあるはず、著作権法第30条の4を改めて読んでみましょう。

(著作物に表現された思想又は感情の享受を目的としない利用)
第三十条の四 著作物は、次に掲げる場合その他の当該著作物に表現された思想又は感情を自ら享受し又は他人に享受させることを目的としない場合には、その必要と認められる限度において、いずれの方法によるかを問わず、利用することができる。ただし、当該著作物の種類及び用途並びに当該利用の態様に照らし著作権者の利益を不当に害することとなる場合は、この限りでない。
一 著作物の録音、録画その他の利用に係る技術の開発又は実用化のための試験の用に供する場合
二 情報解析(多数の著作物その他の大量の情報から、当該情報を構成する言語、音、影像その他の要素に係る情報を抽出し、比較、分類その他の解析を行うことをいう。第四十七条の五第一項第二号において同じ。)の用に供する場合
三 前二号に掲げる場合のほか、著作物の表現についての人の知覚による認識を伴うことなく当該著作物を電子計算機による情報処理の過程における利用その他の利用(プログラムの著作物にあつては、当該著作物の電子計算機における実行を除く。)に供する場合

わぁ、目が滑りますね!🍌三👀

簡潔にいうと、機械学習による学習は、著作物に表現された思想又は感情の享受を目的としない利用にあたります。そのため、著作物を利用しても著作権法上問題がないのです。また、ここでいう「利用」は普段使う言葉とは少し違う法律用語です。利用には、機械学習や私的利用のための複製(インターネットでのダウンロード)だけではなく、公衆送信すなわちオンラインでの公開も含まれています。また、営利目的での利用も含むため、営利目的のデータセットの学習だけではなく、データセットの販売を行うことも可能です。

つまり、機械学習用のデータセットが、著作物に表現された思想または感情の享受を目的とした利用を防ぐ形式を取っている場合は、オンラインに公開しても著作権法上問題がありません。許諾無しで公開できると聞いて驚いた方もいるでしょうが本当に可能です。この項目は、平成30年の著作権法改正で盛り込まれました。

著作者隣接権についても、著作権法第102条1項により、著作権上許諾無しで利用できるケースにおいては同様に著作隣接権者の許諾無しで利用できます。

ただし、データセットを見聞きして作品を楽しむことが目的となっている場合は、著作権法上30条の4に該当せず、著作権違反となるので注意しましょう。

著作物を含みながら著作権法違反にならないような工夫がされているデータセットの例としては、moe-speech が挙げられます。このデータセットでは複数のゲーム作品から音声を著作権者の許諾無しに取得しています。moe-speechでは、享受目的での利用を防ぐため、以下のような手段が取られています。

ゲーム名やキャラクター名を伏せて、ゲームによるフォルダ分け類別はせず、またキャラクター識別子としてランダムな英数字の名前を使用
各キャラクターフォルダ内の音声ファイルの並び順はランダムに、順番を特定できないようにする

このような工夫の結果、著作権、著作隣接権、パブリシティ権を侵害していないと考えられています

どうして著作物を情報解析に利用して良いのか

それでは、どうして著作権には一部の制限があり、著作者の許諾なしにAIに学習させても良いという法律が作られているのでしょうか?

これに答えるために、まずは著作権法が制定されている目的にまで遡る必要がありそうです。著作権法第一条には、このように記されています。

(目的)
第一条 この法律は、著作物並びに実演、レコード、放送及び有線放送に関し著作者の権利及びこれに隣接する権利を定め、これらの文化的所産の公正な利用に留意しつつ、著作者等の権利の保護を図り、もつて文化の発展に寄与することを目的とする。

この通り著作権法は、著作物の公正な利用と著作の権利の保護を両立することで文化の発展に寄与するために定められており、公正な利用と権利の保護のバランスをとることが重要だと考えられます。

では、機械学習目的での利用はどうでしょうか?

まず、AIが社会にもたらす恩恵は大きいと思われます。お堅めにいうなら、情報解析目的の利用の促進がもたらすだろう技術革新による社会的意義・公益性等は大きいものだと予測されるということです。

他方、権利の保護の観点から見て、機械学習など第30条の4に該当するような、著作物を享受(鑑賞等)する目的で利用しない場合は、権利者の利益を通常害さないと評価できる、つまり著作権者の受ける不利益は小さいとされています。

許諾なしに情報解析のために利用できる環境によって生ずる、技術革新による公益と、著作権者の受ける不利益によって生じる文化発展への阻害とを天秤にかけた時に、前者の方が大きいとみなされたのでしょう。このような理由によって、許諾無しに著作物の情報解析ができるように現行の著作権法へと改定されたものだと考えられます。

日本著作権法を準拠法にしたいなら

このように日本著作権法は非常にAIのための取り組みに対して前向きな姿勢を取っています。これは諸外国と比較しても、営利目的の利用も制限しない点など非常に積極的だと評価されています。法律については声の人格権など、いくつか取り組むべき課題が残っているとは言え、日本で機械学習技術発展のために取り組んでいるならば、しっかりと日本著作権法の恩恵をしっかり受けたいですよね。

では、この世界中が繋がるインターネットで、どうすれば日本法を準拠法とすることができるのでしょうか?

著作権法に関しては、一般的に、当該著作物が利用される地の法律を適用すべきとされています。確実に日本法を準拠法とするなら、日本において利用行為を行う、つまり日本で作業を行い、かつ日本にサーバーに置いておくのが良いとされています

著作権って弱い?

ここまで、色々書いてきましたが、著作権が弱いと感じた方もいるかと思います。ここまで書いてきたのはすべて、AIの事前学習目的でデータセットを公開し、事前学習を行う場合についてです。学習以外の過程の場合(たとえば生成する場合や生成したものを公開する場合)や、追加学習を行う場合については、また大きく話が異なります。

ここで耳慣れない響きだと感じる方がいるかもしれないので一応書きますと、AIの学習には、主に事前学習追加学習があります。

何も学習していないAIというのは、例えるならば、生まれたての無機物の赤ちゃんです。地面が上にあるのか、空が上にあるのか、フラフープが上にあるのか、「しかし」が上にあるのかも知りません。一つも言葉を知りません。ここで、この世界がどうなっているのかを教える、つまり、世界を見上げて見えるのは空なんだよ、を教えていくのが事前学習です。
そして、追加学習は特定の分野を勉強する過程です。事前学習を通してこの世界について学んだあと、特定の分野に特化する過程が、追加学習と呼ばれています。

事前学習についてはほとんどのケースで享受目的の情報解析ではないということで、専門家の解釈が一致しますが、追加学習での利用については、享受目的の情報解析であるとされるケースがいくつかあります。例えば特定の作品のキャラクターの音声を出力するために音声の追加学習が行われ、その追加学習モデルが作品名とキャラクター名つきで公開されていた場合、著作権侵害となる可能性が高いです。

そして、もちろん生成にあたって著作権違反とされるケースは数多く存在します。本題とずれるので割愛しますが、興味がある方は文化庁のスライドをご覧ください。

そして、学習ではないのによく学習と混同されている例としては、著作権者の許諾を得ずにイラストを画像生成AIを用いてimg2imgで編集し、SNSにアップしているケースがあります。ここで、img2imgは享受目的の利用とされ、著作権第30条の4には該当しないため、アップロードされた作品が元の作品との類似性が認められる場合、著作権侵害となります。

データセットは著作物ではないけど、ライセンス契約はできる

データセットは上述したように著作物ではありません。しかし、著作物ではなくともライセンス契約でライセンスをつけることはできます。著作権とライセンス、ライセンス契約は大きく異なります。著作権は、前述したように著作物を作った時点で自動的に発生する権利です。

そして、ライセンスは著作権者からの利用許諾です。つまり、著作権として認められている権利を利用者に対して許諾するもので、著作権者から利用者への一方的な許諾になります。OSSのライセンスの多くはこれにあたります。例えば、GPLライセンスは、もともと利用許諾を意図して作られおり、著作権に基づく利用許諾として機能します。(ただ、この辺りは少し複雑で、2022年にはGPLライセンスはライセンスとライセンス契約の両方として機能するという米国の判例 が出ています。)

一方で、ライセンス契約は利用許諾契約として当事者間同士で結ばれた契約です。作者と利用者の双方が契約に同意することで契約が成立します。契約に同意していない第三者には効力が及びません。 ソフトウェアライセンス(EULA)などはこれにあたります。利用許諾契約を通して、著作権者は利用者に対して著作物の利用許諾を行ったり、あるいは、著作権が制限されている部分についても利用禁止と取り決めることができます。

例えば、ある画像について著作権者がAIの学習に用いることを禁止したい場合は、利用許諾契約を結ぶことで利用を禁止することが可能です。ただ、契約を結ぶには、チェックボックスへのクリック等によるお互いの同意が必要なため既存のSNSでは難しいでしょう。

これは、著作権性が認められないデータセットについても同様です。データセットを公開する際にライセンス契約があれば、本来著作物ではないため自由に利用できるデータセットであっても、利用者がどのような利用ができるのかの範囲を定めることができます。データセットは著作物ではないため著作権では守られませんが、だからこそなお一層、ライセンスによる契約が重要になります。

それでは、著作物性のないデータセットにおいて、つけられたライセンス(一方的な許諾)は有効なのでしょうか?ライセンス対象となるデータセットの著作物性の有無が直ちには明らかでない場合、ライセンスは有効であると解釈されています。ただこの点は議論の余地が残り、著作物ではないデータセットにおいてはライセンスは無効という主張もあるので、ライセンス契約を結ぶのが確実です。

ライセンス契約を行う方法

日本法では、契約を確実に行うためには、利用規約と同様に利用者のワンクリックで合意を取るのがいいとされています。huggingfaceのプラットフォーム上では、データセットの閲覧前に利用者の合意を取り、ライセンス契約を行うことができます。

ライセンスの選択肢

ライセンスが大事であることは分かりましたが、ではどのようなライセンスをつければいいのでしょうか?データセット向きのライセンスは、ソースコードのためのライセンスとは大きく異なっています。いくつか選択肢を上げていきましょう。

パブリックドメイン

データセット作成目的で付けることは、まずありません。

著作者の死後70年後などに著作権が消滅した作品は自動的にパブリックドメインに入り、全世界で著作権制限が存在しない作品にはパブリックドメインマークをつけることができます。パブリックドメインとなるコンテンツをまとめたデータセットを作成した場合、日本法ではデータセットに著作権が認められることがあるため、権利を明示的に可能な限り放棄したい場合は後述する、CDLA PermissiveやODC-PDDLを付与しましょう。

CDLA Permissive 2.0

CDLA Permissive 2.0は、Linux Foundation が、オープンデータを推進するために作成した、データセットに特化した非常にシンプルなライセンスです。このライセンスを付与することで、自由に使用、変更、共有することを許諾します。データセット作成者のクレジットも求めません。これはライセンスでありライセンス契約でもあります。

ODC-PDDL: Open Data Commons Public Domain Dedication and License

ODC-PDDL は、データベースをパブリックドメインに入れることを試みるももので、制限が最も少ないライセンスです。利用者はデータベースを自由に使用、変更、共有してよく、出典表示も必須ではありません。

ODC-BY: Open Data Commons Attribution License

ODC-Byは、クレジット表示が必須とする、ライセンスであり、ライセンス契約です。データベースの自由な利用が可能で、派生物の共有義務はありません。

ODC-ODbL: Open Data Commons Open Database License

ODC-ODbLは、Open Data Commons Open Database Licenseの略です。データセットのために作られたコピーレフトのライセンスであり、ライセンス契約です。出典表示が必要で、派生データベースも同じライセンスで公開必須です。学習を行ったときには、モデルにライセンスを引き継ぐ必要はありません。

CDLA Sharing

CDLA Sharingは、コピーレフトのオープンデータライセンスであり、ライセンス契約です。データセットの派生物も同じライセンスで公開することを求めています。

ライセンス 表示不要 改変可 営利可 継承不要
CDLA Permissive 2.0
ODC-PDDL
ODC-BY
ODC-ODbL
CDLA Sharing 1.0

CCライセンス

CCライセンスは、コンテンツの著作権を一部を放棄し一部を保持して、自由に流通させるためのライセンスです。

著作権は、'All rights reserved.'であり、パブリックドメインは、'No rights reserverd.'である一方で、CCライセンスは、その間にあたる'Some rights reserved.'とされています。つまり著作権の一部を許容するライセンスであり、著作権以上の制限をかけるライセンスではありません。

CCライセンスは、もともとは著作物のために作られたものであり、データセット用に作られたものではありませんが、データセット用に時々利用されています。著作物ではないデータセットにおいて、著作権の一部を放棄するということに関して、CCライセンスは完全に無効とする立場もあり、法的に不透明な部分が残るため、使うことは推奨しません。

CCライセンスには6種類のライセンスがあり、著作者は自由に利用条件を定めることができます。作品を利用するための条件は、表示・非営利・改変禁止・継承の4種類を定めることができます。

表示(BY)は、クレジットの表示を求めるものです。
非営利(NC)は、営利目的の利用を禁じるものです。
改変禁止(ND)は、作品の改変を禁じるものです。
継承(SA)は、作品を改変・加工した際に、寄与部分に同じライセンスをつけ、公開することを求めるものです。

ライセンス 表示不要 改変可 営利可 継承不要
CC0
CC-BY
CC-BY-SA
CC-BY-ND
CC-BY-NC
CC-BY-NC-SA
CC-BY-NC-ND

ND(改変禁止)とSA(継承)を同時に持つライセンスがないのは、改変禁止の場合、その継承が起こりえないためです。

ここで、継承(SA)については、学習したモデルにまで同じライセンスを継承する必要はありません。例えば、Wikipediaのテキストは、CC-BY-SAで公開されていますが、Wikipediaを学習した言語モデルは必ずしもCC-BY-SAライセンスで公開する必要はありません。

データセットにおいては、ND(改変禁止)はかなり使いづらいので、使わないようにしましょう。

また、各ライセンスについて、CCPLusの形式を用いると、追加で、権利を利用者に与えることができます。逆に利用者に与える権利を制限することはできません。例えば、基本的に非営利目的の利用に対して許可をして、特定の場合のみ、営利目的の利用に対して許可を行いたい場合、CC-BY-NC+を利用してください。

CC0 1.0

CC0は、著作物をパブリックドメインに入れるためのライセンスです。CC0ライセンスは、ライセンサーが著作物(とデータベース)における、著作権、著作者人格権、肖像権、パブリシティ権など全ての権利を法令上認められる最大限の範囲で放棄し、法律上放棄できない部分についても広く公衆に対して無制限に利用を許諾するように作られています。なお日本法では、著作者人格権は著作者だけが持つことができる権利であり、譲渡、放棄することはできません。

CC0ライセンスを付与するためには、放棄する予定の一切の権利を取得・処理することが強く推奨されています。もし、第三者が著作権その他の権利を持つマテリアルを含む場合は、CC0の対象とならないマテリアルを明示する必要があります。

CC0は、メタデータ等のデータベースや、論文中のデータなどに利用されることがあります。ただし、第三者の権利を含むデータセットにCC0のライセンスをつけるのは、混乱の種になるのでオススメしません。

ライセンスなしの場合

だいぶワイルドな選択肢です。著作物性のないデータセットに、ライセンスがついていない場合、日本国法の元では、自由に利用可能です。つまり再配布や加工含めて、自由に利用することができます。

おわりに

ここまで、データセットの公開において知っておくべきことをまとめましたが、なかなか複雑ですね。ここで取り上げたほかに、実際にデータセットにライセンスを適用するためにはライセンスの指定する所定の手順に則る必要があったり、利用許諾契約の形をとる必要があります。気になるのであれば最後は、著作権やAIに詳しい弁護士さんや弁理士さんに相談するのがいいかと思います。

当記事を元に何か損害が起きても筆者は一切の責任を取れませんし、個別の事例に対してアドバイスを行うことはできません。

この記事をもとに、エンジニアコミュニティーの中でオープンデータセットへの知見が広がり、データセットを公開する文化が広がることを切に祈っています。

参考文献

機械学習に関わるエンジニア向けに、参考文献をオススメ順にならべています

文化庁令和6年度著作権セミナー「AIと著作権Ⅱ」講義資料
半公式かつ分かりやすい!必読 
https://www.bunka.go.jp/seisaku/chosakuken/aiandcopyright.html

柿沼太一「生成AI開発におけるデータセットを構築・利用・公開する際に問題となる法規制とそのクリア方法」
https://doi.org/10.11517/pjsai.jsai2024.0_3k1os2a04

次に読むなら

https://doi.org/10.32235/alis.11.0_110
https://doi.org/10.11517/jjsai.36.6_745
https://doi.org/10.1241/johokanri.55.125
https://keiyaku-watch.jp/media/hourei/chosakukenhou_kihon/
https://storialaw.jp/blog/9748
https://osslicense-ane.com/wp-content/uploads/2022/09/AboutOSSLicense_kai20140325.pdf
https://doi.org/10.11517/jjsai.39.6_831

さらに詳しく

https://laws.e-gov.go.jp/law/345AC0000000048
https://www.meti.go.jp/policy/mono_info_service/connected_industries/sharing_and_utilization.html
https://www.bunka.go.jp/seisaku/chosakuken/hokaisei/h30_hokaisei/

Discussion