【アーカイブ】「現在の」画像生成AIに関する議論は何故混乱しているのか、そしてやはり問題があるのではないか
※記事を書いた当初と違い、世界中の専門家が「意味も分からず盗作してるだけ」と言ってることが明らかになり、赤松健はフレンドリーファイアするレベルだと判明したのでもう不要かと思いますが、一応記録として残しておきます(更新はもうしません)。
https://note.com/lamrongol/m/m97fe617db17c
「生成AI」関連の記事は主にnoteに投稿しています。はじめに
現在Twitter(に限らず世界中のネット)では画像生成AIに関して激しい応酬が繰り広げられ、賛成派反対派ともに(感情的なものが入り混じった)間違ってると思われる主張も頻繁に目にします。
その原因としては「AI絵師」が「あなたの絵を使って大儲けさせてもらいました」と挑発するような発言をしたり、イラストレーターがpixivの絵をすべて非公開にするなど極端な対抗策を取る(取らざるを得ない)などもあると思いますが、根本的な問題として 「現在の」 「画像生成」 AIにだけ存在する問題を「AIの問題」と一括りに(無意識のうちに)捉えてしまってる人が多いからではないか、というのがこの記事の主旨です。
「AI」と一口に言っても様々な種類があります。それは単に深層学習や協調フィルタリングと言ったアルゴリズムの違いだけでなく、対象や「どのように使われるか」といったものも含みます。
しかし「ChatGPTにより雇用が奪われる」とか「将棋や囲碁でAIが人間を上回った」とか、ひょっとしたら『ターミネーター』シリーズのスカイネットのような「AIの反乱」のようなイメージまで混ざって同一視され、「AI全般に共通するもの」ではなく 「現在の」 「画像生成」 AIにだけ当てはまる課題に対して「AIには問題はない(orある)」=「現在の画像生成AIには問題はない(orある)」というように論じられてる例が散見されます。
2016年に囲碁AIが世界最強の棋士に勝ち大きな話題になりましたが、後述するように 「画像生成」 AIは問題になる可能性があります。
あるいは「ムーアの法則に従えば2045年にコンピュータは人間と同等の知能を持ちシンギュラリティが起こる」という話もあるため2045年のAIが生成した(その頃には完全に「描いた」と表現していいかもしれませんが)イラストなら問題がなかったとしても、 「現在の」 画像生成AIには問題がある可能性もあります。その理由は以下の通りです。
囲碁AIと「現在の」画像生成AIの違い
AlphaGoは最初人間の棋譜を元に学習していましたが、その後自分自身との対局だけから学習したAlphaGoZeroはAlphaGoを上回る強さになりました。これが可能だったのは、もちろん開発した技術者や深層学習がすごいというのもありますが、囲碁には「囲んだ地の数が多い方が勝ち」という 客観的な評価基準 があることも一つです。
AlphaGoZeroはある手が「良い手」なのかどうか、「それにより多くの地を囲めたか(勝てたか)」で判断することができます。
ところが、イラスト(というより芸術分野全般)の場合「どんなものが良いか」という客観的な基準が存在しません。いや、確かに二点透視図法などの技法はありますし、怪我をしたわけでもないのに指が4本だったらおかしいわけですが、「ヘタウマ」やら「ウマヘタ」などの言葉もありますし、例えば「実在するものを正確に描けているか」という評価基準だとピカソの(若い頃のではない有名な)絵は0点になってしまいます。
ピカソほど有名ではないですが「赤の中の黒」のような、技術的にはそれこそ本当に幼稚園児でも描けるような絵でも評価され東京都現代美術館に飾られ小学校の図画工作の資料集にも載ってたと思います。
さらに言えばこれやピカソの絵よりpixivの人気イラストの方が良いと評価する人だってたくさんいるでしょう。
絵ではなく例えば俳句でも5・7・5というルールがあるはずなのですが、「咳をしてもひとり」「分け入っても分け入っても青い山」のような自由律俳句も評価され教科書にまで載ってます。
このように芸術分野となるともはや「それを見て(聞いて)いいと思ったかどうか」ぐらいしか基準がありません。そのためAIが例えばランダムに「100x100pixelのキャンバスで座標(0,0)のカラーコードを#FFFFFF、(1,0)のカラーコードを#000000……」と画像を生成し何かを元にスコアを出して「このような特徴を持った絵を描けば高いスコアが得られる」というような学習を行うことは不可能です。そのため 「現在の」 画像生成AIが学習を行うには人間の著作物を元にせざるを得ません。
著作物を学習に使うことの是非と「画像生成AI」の問題
とはいえそれだけなら「機械翻訳」等も著作物を元に学習を行なっており、そもそも人間も先人の絵を模写するなどの形で学習を行なうことがあるので「著作物を学習に使ってるからダメ」と言う主張自体は確かに間違っています、いますが、「機械翻訳」等の場合も 客観的な評価基準 の有無という違いがあります。
外国語を翻訳する場合、文化の違いなどから単語単位でも「ニュアンスまで完全に同じ意味の言葉」は存在せず「絶対の正解」はありませんが、それでもある程度は対応関係があります。少なくとも「This is a pen」を「私はテニスをする」と「翻訳」するのは明らかに間違ってます。そのため大量の著作物を元に学習を行なえば翻訳家毎の違いは収斂していきます。つまり「ある特定個人だけが行える翻訳」をそのまま出力したりはしないということです。
しかし、芸術分野では──翻訳も芸術的側面はありますし小説や詩などの芸術を翻訳する場合もあるとはいえ──上記のように 客観的な評価基準 が存在しないため、 「現在の」 「画像生成」 AIには「学習元」と「出力」の差が近すぎるという問題があります。
Twitterでも度々「オリジナル(学習元)そのままの画像が出力された」という報告を見ます。
また、AdobeやNVIDIAは普通に使っても著作権の問題が発生しない画像を学習に使った画像生成AIを発表しています。
- 画像生成AIサービスAdobe Fireflyが登場 著作権問題をクリアに | PhotoshopVIP
- NVIDIAがクリエイター向けのジェネレーティブAI 「Picasso」とコンパクトな新GPU「RTX 4000 SFF Ada世代」を発表
「AIの知識があれば画像生成AIには問題がないことがわかる」といった主張もありますが、AdobeやNVIDIAといった、グラフィック関係の話を少しでも聞いたことがあるなら(私のようにイラストも描けず画像編集ソフトはWindows付属のペイントしか使ったことがなくても)知ってるような一流どころの専門家はわざわざ「著作権の問題をクリアした」画像生成AIを発表しています。
そもそも、実は「学習元とそっくりのものが出力されてしまう」という問題はイラスト以外でも起きています。
【Infostand海外ITトピックス】GitHub Copilotに集団訴訟 AI訓練データで初 - クラウド Watch
「イラストレーターは情報工学の知識を持ってないからAIを理解していない」といった意見も見られますが、(Microsoftが買収した)GitHubの(ChatGPTの開発元でもありMicrosoftが出資しているOpenAIが開発した)Copilotに対しても、ソースコードを公開しているエンジニア達が学習元をそのまま出力して著作権を侵害していると問題視しています。ソースコードの場合は機械翻訳と同じくある程度客観的な評価が可能とも言えますが、(現状では)コメントまでそのまま出力されてしまうとなると単純なコピーと変わらないでしょう。
もちろん学習元そのままではない出力を行なうことも多いですが、 「現在の」 「画像生成」 AIは他人の著作物を学習元にしてしまうとコラージュとあまり変わらない著作権的問題の可能性がある(とAdobeやNVIDIAの技術者まで認識している)ことは確かです。
最後に
この問題に関して当初は言及するつもりはなかった、というかハッキリした意見は持ってなかったのですが、Blueskyには(イラストも描ける)エンジニアが異常に多くイラスト生成AIに関しても議論が行われており、それを見て自分の意見がまとまりこの記事を書くことができました。ここでその方たちとBlueskyに謝辞を申し上げます(Bluesky自体の紹介記事は以下)。
Twitterには無い分散型SNS( B/l/u/e/s/k/y など)の利点 - Qiita
(超巨大な)補足
上記の「コラージュとあまり変わらない」に対して「そのままではない(新しい形の)コラージュ」なら問題ないのではないか? と考える方もいると思うので、以下ではこれに対して私見を述べます。ここからは完全に専門外なので話半分に聞いてください。
そもそも「著作権」とは何か? 何のために生まれたのか? どうあるべきなのか?
「権利」はテクノロジーの進歩によって新しく生まれたり制限されたりする
『戦争における「人殺し」の心理学』という本の著者デーヴ・グロスマンはアメリカ合衆国憲法修正第二条「規律ある民兵は、自由な国家の安全にとって必要であるから、人民が武器を保有しまた携帯する権利は、これを侵してはならない」の支持者、要するに銃規制反対派なのですが、一方でこうも書いています。「もっとも過激な修正第二条の擁護者でさえ……核兵器だのを個人が所有する権利を擁護したりはしないだろう」と。
修正第二条には武装権があると書いてある。「銃はいいが核兵器はダメだ」とかは一言も書かれてない。しかしそれでも「憲法で武装権が認められてるのだから核武装する」と主張する人間はいない。
この条文が作られた時は核兵器はもちろん機関銃すら存在せず、そこで想定されていた<武器>とは(マスケット)銃で、起草者達は都市をまるごと蒸発させられるような<武器>など想像すらできませんでした。そもそもこの条文は人民が支配者(当時のイギリスや連邦政府)に抵抗するためには武装する必要があると考えられて作られたものなのだから、人民や世界を巻き込んだ大破壊を可能にする核武装は理念から外れています(人民が他の人民に乱射できる銃も理念から外れてる気がしますが、法学やアメリカの思想には詳しくないのでそこは一旦おいときます)。
要するにテクノロジーの進歩により修正第二条は「解釈改憲」され、「自由を守る」という崇高な理念のための武装権には制限が加えられた訳です。
他にも「言論の自由・表現の自由」に対して「でもヘイトスピーチはダメじゃないか」とヨーロッパや日本でも規制する法律ができました。言論の自由・表現の自由を端的に表したヴォルテールの名言「あなたの意見には何一つ賛成できないが、あなたがそれを主張する権利だけは命をかけても守るつもりです」は捏造ですが、捏造でなかったとしても「あなたが世界中にデマをばらまいて暴動を誘発したりラジオで虐殺のプロパガンダを行なう権利だけは命をかけても守るつもりです」とは言わなかったでしょう。当時はそんなことを可能にする技術はなく、人々を虐殺に駆り立てるために言論の自由や表現の自由が唱えられた訳でも無かったからです。
逆のパターンもあります。ロックやルソーは日照権や肖像権を主張しませんでした。では彼らはそれに反対だったのかというとそうではなく、そもそも(具体的に)反対や賛成ができませんでした。なぜなら当時は日光を遮ることができるほど高い建物となると国家的プロジェクトで作られる城や大聖堂ぐらいしかなく、カメラは存在すらしていなかったため「肖像権」という概念は考えることすらできませんでした。しかしテクノロジーの進歩で私企業でも高層ビルを建てられるようになったりカメラの発明で人の姿を「写真」という形に残せるようになると、「勝手に日光を遮ってはいけない」「勝手に人の姿を記録してはいけない」と日照権や肖像権が主張されるようになり、実際判例などで認められるようになりました。
それに対して「ロックやルソーなどの偉人ですら主張していなかったそんな権利認められるか」と主張する人はいないでしょうし、ロックやルソーが現代にタイムスリップして日照権や肖像権について聞かされたらおそらく賛成したでしょう。また、直接聞くことができなくても彼らの思想からそれらの権利は導かれるものでしょう。
そして「著作権」の概念もテクノロジーの進歩から生まれたものです。昔の人は著作権を主張したりしなかった、そもそも主張する必要がありませんでした。音楽を聴こうと思ったら高い金を払って楽器を買いそれを演奏できる人を雇う必要があり、コピーしようにもできなかったからです。千年以上前の『源氏物語』の原文が今でも残っているのは、面白いと思った人が一文字ずつ手間ひまかけて手で書き写したからで、その目的も自分の手元に置くため、今で言う私的利用のためだったので「不当な権利の侵害」はほぼ考える必要がありませんでした。
しかし活版印刷などの発明で様々なもののコピーが容易になると、勝手にコピーして売り捌くなど創作者に不利益をもたらす行為が可能になりました。紫式部は貴族だったので『源氏物語』から利益を得られなくても食うに困ったりはしませんでしたが、現代においても著作権が存在しないと貴族や大金持ちで無い限り「創作して生活する」ことができなくなり、創作者はもちろんのこと、創作物が減ることで社会全体が不利益をこうむります。そのため今では著作権が整備されています。
さて、このように「著作権」を含めてテクノロジーの進歩により「権利」が新しく生まれたり制限されたりしていった(というより、著作権などの誕生は「他人の著作物をコピーする権利」「自由に写真を撮る権利」の制限なのでこの二つは表裏一体の場合もあります)ことを考えると、「著作権」という概念もテクノロジーの進歩、つまり「現在の画像生成AI」などにより考え直さなくてはならない可能性があります。
2023年5月現在の日本の法律では著作物の定義は「思想又は感情を創作的に表現したものであって、文芸、学術、美術又は音楽の範囲に属するもの」で、例えば事実(「2023年5月現在の日本の総理大臣は岸田文雄」など)は著作物とは見なされません。それは当然だと思うでしょうが、アイディアも著作物とは見なされません。これに関しては「おや」と思う方もいるでしょうが、アイディアも著作物としてしまうと例えば「タイムマシン」のアイディアを考えて小説を書いた人がいるとその人が死んで50年以上経過しないとタイムマシン(あるいはタイムスリップなど)が出てくる創作物を書くにはいちいちその人の許可を取らなくてはなりません(ネットでは「〇〇はまどマギ/シュタゲ/ひぐらしのパクり」のような言説が見られますが、それと「タイムマシンが出てくるフィクションはすべてH.G.ウェルズ『タイムマシン』のパクり」の距離はあまり遠くないでしょう)。
そしてその流れで例えば「絵柄」も著作権の保護対象では無いのですが、デジタル作画などの技術が生まれこれだけ絵を描く人が増え「絵柄」も多様になった現代で、「絵柄」は「思想又は感情を創作的に表現したもの」では無いと本当に言えるのか、「ある人のイラストをAIに学習させその人が描いた様な絵を生成する」という行為に問題はないのか、もひょっとしたら考え直さなくてはいけないかもしれません。
まあモネが「俺の絵柄を真似するな」と主張し印象派的絵画が描けなくなったりしたら困るので線引きは難しいでしょうが、写真では誰がシャッターボタンを押しても同じものが撮れるにも関わらず、撮影者が決めた「構図」や「配置」に創作性があると考えられ著作権が認められたりするので、「絵柄」にも同じ様な考えが適用されてもおかしくないのではないか、と素人考えですが思います。
「権利」に限らない話ですが、「最大多数の最大幸福」を唱えたベンサムが別に少数派の切り捨てなどは主張しておらずむしろ同性愛者や動物の権利まで主張していたり、マルクスが(自分の言葉が硬直的に捉えられてることに対して)「私はマルクス主義者ではない」と言った話がありますが、修正第二条を文字通り正しいと考える人が現代ではいないように、ある言葉/概念/法律等をその背景を無視して受け入れ「これと適合しているから正しい、適合してないのは間違ってる」と考えるのは一歩間違えると原理主義的になってしまいます(例えて言うなら基本的に博愛を説いている(と考えられている)キリスト教徒が多い国でも同性婚を認めてる国が多い(むしろ非キリスト教圏の国の方で認められてないかもしれない)のに「でも聖書には同性愛を否定する記述がある」と否定するような)。
最後にもう一つ、「画像生成AIは合法である」という主張は単に「刑事民事訴追されない」ということしか意味しません。著作権が整備される前に活版印刷でコピーして売り捌く行為は、合法だったが不当であったことには変わらないように。
Discussion