【OSS LLM】オープンソースのLLMのライセンスってどうなってるの?
初めに
オープンソースのLLMが様々な企業などから公開され、HuggingFaceで利用できるようになってきました。この分野は進化が激しく常月毎に何個も新しいLLMが出てきていて、追いつくのが大変です。ただ、いざ使うとなると気になるのがライセンス周り。商用利用して良いのか、研究目的でのみ可能なのか、ファインチューニングして良いのかなどなど、それぞれライセンスの種類によってどう違うの気になったので調査してみました。
※ なお私個人は法律などに詳しいというわけではなく、ただのしがないITエンジニアなので、詳細は実際にライセンスの原文などを当たってください。
※これから書く内容の正確さについて一切の責任は負えません、また会社など私の周囲の組織・個人の見解とも一切関係のないものです。ご理解ご了承いただける方のみお読みください。
何に対するライセンスか
LLMを使ったサービスを作るとしたときに、気を付けるべきポイントは何に対するライセンスかです。具体的には2つあります。
- LLMのライセンス
- データセットのライセンス
1つ目は使用するオープンソース(以下OSS)LLMのライセンスです。これはサービスにLLMを組み込んだ際に発生することで、当然ながらそのモデルに対して商用可能なライセンスを選ぶ必要があります。
2つ目はファインチューニングする場合のデータセットのライセンスです。OSS LLMをそのままサービスに組み込むなら考慮しなくて良いですが、通常そのまま使うのは独自性がなく、かつ性能的にサービスに特化させた方が良いのでファインチューニングを試すことになると思います。HuggingFaceにはデータセットも多く用意されていて、利用することができます。そのデータセットにも実はライセンスが存在し、有名なものだとdatabricks/dolly-v2-12bの学習データを日本語日本訳したdatabricks-dolly-15kはライセンスが「CC-BY-SA-3.0」であるため商用利用可能です。
どういうライセンスがあるのか
基本的にどのモデル・データセットについてもOSSであればライセンスが付与されています。以下のライセンスが代表的なものです。
MIT License
このライセンスでは、ライセンスのコピーと元の作成者の通知が含まれている限り、誰でも目的を問わずソフトウェアを使用、変更、配布することができます。 MIT ライセンスは Apache 2.0 ライセンスに似ていますが、商標やロゴに関する条件はありません。
他と比較してかなり制限の緩いライセンスです。
Apache 2.0
このライセンスに基づいて、ユーザーは元の作成者のクレジットを表示し、ライセンスのコピーを添付し、ソフトウェアに加えられた変更を明記する必要があります。また、ユーザーは、ソフトウェアに関連する商標やロゴを許可なく使用してはなりません。
CC (Creative Commons)
クリエイティブ・コモンズ・ライセンスは、利用者が特定の作品をどのように使用できるかを明確にします。利用者は、著作者が設定した条件に従う必要があります。これには、非営利目的での使用、作品の改変の可否、作品を共有する際に同じライセンスを適用することなどが含まれることがあります。ライセンスの種類によっては商用利用が許可されることもありますが、必ずライセンスの詳細を確認し、著作者の指定する条件に従って使用することが重要です。
クリエイティブ・コモンズ・ライセンスにはいくつかの主要な種類があり、それぞれが異なる条件を提供します。以下はその中でも一般的なライセンスについての説明です。
1.CC-BY(表示)
このライセンスは、作品を自由に使用、変更、配布することを許可しますが、その際には必ず元の作成者を明示(クレジット表示)する必要があります。商用利用も可能です。このライセンスは最も柔軟性が高く、作品の広範な普及を促進することを目的としています。
2. CC-BY-SA(表示 - 継承)
「表示」と同様に、元の作成者をクレジット表示する必要がありますが、これに加えて、改変された作品や派生作品も同じ「表示 - 継承」ライセンスのもとで共有する必要があります。このライセンスは、作品が改変されてもクリエイティブ・コモンズの精神が継承されるように設計されています。商用利用も可能です。
3. CC-BY-NC(表示 - 非営利)
このライセンスは、「表示」と同様に、利用者が作品を使用する際に元の作成者をクレジット表示する必要があるという点で共通しています。しかし、「非営利」の条件が加わり、利用者は作品を商用目的で使用することができません。このライセンスは、教育、研究、個人的な使用など非商用目的での使用を想定しています。利用者は作品を変更し、非営利目的で配布することも可能ですが、すべての使用が非商用である必要があります。
4. CC-BY-ND(表示 - 改変禁止)
このライセンスは、利用者が元の作成者をクレジット表示することを要求し、同時に作品の改変を禁止します。「表示 - 改変禁止」ライセンスは、作品をそのオリジナルの形で使用することを許可しますが、改変、派生作品の作成、またはその他の形での変更は許可しません。利用者は、作品を共有することはできますが、その際にも作品は変更されていない状態でなければなりません。
所感としてはCC-BY-SA
かCC-BY-NC
がCCの中では使われることが多く、SA
は商用利用可、NC
は研究目的のみと判断できます。
OSS LLMに対してCCのライセンスが付与されていることはあまり見ないですが、データセットに対して付与されていることは比較的多く見ます。
LLAMA 2 Community License
LLAMA 2 Community Licenseは、Metaによって提供されるAIツール「Llama 2」の使用に関するライセンスです。このライセンスにより、ユーザーはLlama 2とその関連資料を非独占的に使用、複製、配布、改変する権利を得ます。ただし、Llama 2を第三者に提供する場合は、この契約書のコピーを提供する必要があります。
LLAMA 2のモデルをもとにファインチューニングなどをして公開されたモデルに多くの場合付与されています。
1. ライセンス権と再配布
ユーザーは、Llama 2とその関連資料を使用、複製、配布、改変するための非独占的なライセンスを得ます。Llama 2を第三者に提供する場合、この契約書のコピーを提供しなければなりません。
2. 商業的な条件
月間アクティブユーザーが7億人以上の場合、Metaにライセンスを申請する必要があります。
RAIL License
RAIL ライセンス は、責任ある AI のビジョンを強制することを目的とした、ライセンスへのオープン アクセス アプローチと行動制限を組み合わせた新しい著作権ライセンスです。このライセンスには、 では使用できないなど、特定の使用ベースの制限があります。
- 法令に違反するもの
- 未成年者を搾取したり危害を加えたり、「社会的行動、または既知または予測される個人や性格の特徴に基づいた個人やグループ」を差別したり危害を加えたりする使用。
このライセンスの一部のモデルは、OPT、Stable Diffusion、BLOOM です。
Stable Diffusion系で多い印象です。
商用利用の壁はどこか
色々とライセンスをあげましたが、どこを見れば良いでしょうか。基本的にはライセンス事項に記載の以下の4点です。
-
モデル等の商用利用の可否
モデル等を使用したサービスを有償で提供するなど、営利目的で使用してよいか
-
モデル等の改変の可否
モデル等をオリジナルのものから改変して使用してよいか。ファインチューニングができるかに影響します。
-
モデル等の再配布の可否
モデル等を利用者が別の者に再度提供してよいか
-
オリジナルの権利の表示義務
モデルを使用する際にオリジナルの権利の所在を表示する義務があるか
特に重要なのは1と2です。
1の商用利用の可否は、文字通り商用で使って良いかが決まります。ここが不可の場合はサービスに組み込む際には使用できません。
2の改変の可否は、ファインチューニングなどが当たります。ここが不可でも商用利用可であればそのままの状態でサービスに使用できますが、冒頭話した通り組み込む場合は独自性を出すためなどの理由で、おそらくファインチューニングすることになるでしょう。なのでここも重要です。
ライセンスの継承について
実はライセンスにおいてもう一つ重要な要素があります。それが継承です。CCのセクションであったSAが継承にあたるのですが、簡単にいうともとになるモデルやデータセットがSAのライセンス要素を持つの場合、それを使って作られた或いは改変されてできたものは元のライセンスを継承しなければならない、ということです。
ただし、SAのデータセットを使って作ったモデルはどうなるのか?という問いについては賛否両論あり、異なる立場をとっている事例があります。詳しくはこちらを参考してください。とても詳しく書かれております。
各ライセンスでは継承すべきかどうかが異なります。
- MITライセンス:
- 継承は義務ではない
- Apache 2.0:
- 継承は義務ではない
- CC:
- CC-BY-SAやCC-NC-SAなどの継承の要素が入っている場合は、継承が必要
- LLAMA 2 Community License
- おそらく継承は義務ではない
- おそらくというのは、License原文には記載がないがLlama2をもとにして作られたモデルでLLAMA 2 Community Licenseのライセンスではないライセンスが付与されているものがあるため
- RAIL License
- 継承は義務ではない
というわけで、多くのライセンスで義務ではなく、気を付けるのはCCの場合のみだと思われます。
まとめ
ライセンス | 商用利用可否 | 改変可否 | 継承義務 |
---|---|---|---|
MIT License | ○ | ○ | なし |
Apache 2.0 | ○ | ○ | なし |
CC (Creative Commons) | NCを含む場合は不可、それ以外は可 | NDを含む場合は不可、それ以外は可 | SAを含む場合はあり、それ以外はなし |
LLAMA 2 Community License | 月間アクティブユーザーが7億人以上の場合はMetaから別途ライセンスを取得 | ○ | なし |
RAIL License | ○ | ○ | なし |
感想
ここまで調べて通常ライセンスなど気にしなかったので、大変勉強になりました。ただ法律に関することだけあって明言されているあまり情報がなく、苦労しました。解釈の違いは個々で違うこともあるのが厄介なところですね。この辺りは今後も議論が必要なのだと思います。
なかなか明言が難しい内容ですが、何かの一助になれば幸いです。
Discussion