生成AIは著作権法に違反しますか?(新しい論点の紹介)
著作権法違反でOpenAI同社を告発した26歳のSuchir Balaji氏が、つい最近自殺したとみられる遺体で発見されたという速報を知り、衝撃を受けた。しかし、彼が最近オンラインで公開した記事「生成AIはいつフェアユースの対象となるのか?」(https://suchir.net/fair_use.html) は大きな影響力を持っている。この記事で、彼は生成AI技術における「フェアユース」に異議を唱える論理的根拠を提示することができた。
まず、(米国)著作権法第 107 条 (https://www.copyright.gov/fair-use/) は、何かがフェアユースであるかどうかを判断するための法定枠組みを公に提供しており、批評、コメント、ニュース報道、教育、学問、研究などの特定の種類の使用を、フェアユースに該当する可能性のある活動の例として特定しています。
フェアユースの問題を評価するには 4 つの要素を考慮する必要がありますが、そのうちの要素 (3) は「著作権で保護された作品全体に対する使用部分の量と実質性」です。
Suchir の主張によると、要素 (3) には 2 つの解釈があります。
- モデルの入力は著作権で保護されたデータの完全なコピーであるため、「使用量」は著作権で保護された作品全体です。
- モデルの出力は著作権で保護されたデータのコピーになることはほとんどないため、「使用量」はほぼゼロですが、しかし、著作権が本当に保護するのは著者による創造的な選択であると考えると、それは必ずしも正確ではありません。
生成 AI のコンテキストでは、可能なトレーニング データセットを表し、モデル出力のコレクションを表し、生成モデルのトレーニングとサンプリングのプロセスを表す相対的な相互情報量 (RMI) に注目します。
視覚的に、下の赤い円が元の作品に存在する情報を表し、青い円が新しい作品に存在する情報を表す場合、RMI は赤い円の面積に対する交差面積になります。
エントロピーは、無秩序、ランダム性、または不確実性の状態と最も一般的に関連付けられる概念です。例えば、テキスト分析では、エントロピーは文書内の単語の多様性を測定するために使用されます。エントロピーが高い文書には多様な語彙があり、エントロピーが低い文書にはより反復的な語彙があります。大まかに言えば、低エントロピーのモデルの出力にはモデルのトレーニング データからの情報が含まれる可能性が高いということです。極端な場合、モデルはトレーニング データの一部を決定論的に出力できます。
証拠として、エントロピーを低減するトレーニングおよびデプロイメント手順の典型的な例をいくつか以下に示します。
- トレーニング中のデータの繰り返し
トレーニング プロセス中に、モデルに特定のデータポイントを複数回表示することは一般的な方法です。これは必ずしも問題になるわけではありませんが、過度に行うと、モデルは最終的にデータポイントを記憶し、デプロイメント時にそれを繰り返し表示します。 - 強化学習
ChatGPT が低エントロピー出力を生成する主な理由は、強化学習、特に人間のフィードバックからの強化学習 (RLHF) を使用して「事後トレーニング」されているためです。RLHF は、その主な目的の 1 つが幻覚率の低減である。エントロピーがゼロのモデルは、基本的に生成モデルではなく、トレーニング データセットの検索データベースとして機能しますが、幻覚率がゼロになることは簡単です。
生成モデルがトレーニング入力と実質的に類似した出力を生成することはめったにありませんが、生成モデルのトレーニング プロセスには著作権で保護されたデータのコピーの作成が含まれます。これらのコピーが無許可の場合、モデルの特定の使用が「公正使用」に該当するかどうかに応じて、著作権侵害とみなされる可能性があります。
この議論は確かに再検討する余地があるが、近い将来に起こり得るこの法的課題、特にエントロピーの概念をどのように活用して曖昧な空間を定量化できるかについて研究する上で、ユニークな視点を提示している。
Discussion