🔥

「コーパス」とは？AI業界が突然コーパスに騒いでいる理由

2023/07/07に公開

本記事は、fastcompanyにより翻訳された記事です。

ChatGPTや同様のプラットフォームのおかげで、人工知能の台頭は2023年の最も大きな話題のひとつとなりました。AI技術がクリエイティブな分野、人たちの仕事、あるいは人類に破滅をもたらすか、あるいは救いをもたらすかについて、新しい記事が発表されない日はありません。

そして、もしあなたがこれらの記事を読んでいるのなら、最近テック企業の重役たちから投げかけられるある特別な言葉に気づいているかもしれません。それは「コーパス」です。RedditのCEOもそうですし、ウィキペディアの創設者Jimmy Walesもそうですし、マイクロソフトの創設者Bill Gatesもそうです。

ここでは、コーパスの意味と、ChatGPTやMidjourneyのような人工知能プラットフォームがどのように運営されているかを理解する上で重要な理由を説明する。

AIコーパスとは何か？

ラテン語を学んだ人なら、corpusが「体」を意味することはすぐにわかるだろう。(英語の現代語で死体を意味する「corpse」はcorpusに由来する。) また、corpusという単語は、現在でも有効な法的メカニズムである「人身保護令状」に使われていることから、知っている人もいるかもしれません。このフレーズは文字通り「身体を持つべき」という意味で、逮捕された者が裁判官の前に出頭し（したがって、裁判官は逮捕された者の「身体を持つ」）、その逮捕が合法かどうかを判断する権利を保証するものである。

しかし、人工知能の領域で使われる場合、「コーパス」という言葉は物理的な肉体ではありません。その代わり、AIを訓練するために使われたデータの比喩的な「本体」、つまりコレクションを指します。このコーパスは、AIが、それがどのような目的で設計されたにせよ、知的になるために見直す材料である。

AIを訓練するデータの種類を決めるのは人間だからです。そして、人間がAIを訓練すると決めたコーパスは、AIに何を習熟させたいかによって異なります。

コーパスの種類

存在しうるコーパスの種類に制限はありません。AIのコーパスを構成するものは、AIの作成者である人間がAIに何をさせるかによって決まります。

例えば、ミッドジャーニー。Midjourneyは、AIを使って画像を作成する人気のジェネレーティブ・アート・プラットフォーム。ミッドジョーニーは、ユーザーがテキストプロンプトだけで画像を作成できるため、そのAIに一連の画像と関連するテキスト説明の両方で学習させる必要がありました。例えば、ミッドジョーニーが滝の画像を生成するには、そのコーパスに滝の画像と、落下する水の壁を「滝」とラベル付けする付随テキストが含まれていなければなりません。

ChatGPTのようなAIプラットフォームは、大規模言語モデル（LLM）として知られるAIの一種である。堅牢なLLMは、コーパスが十分に大きく豊富であれば、人とテキストベースの会話をすることができます。また、コーパスの内容によっては、LLMは複雑な質問に答えたり、短編小説やスペースシューティングゲームを作るコードのようなオリジナルの創作物を生成することもできます。LLMの能力は、AIの訓練に使われたコーパスに含まれるデータに依存します。

ChatGPTの場合、そのコーパスの構成が知りませんので、ただ聞いてみました。「ChatGPTのコーパスは、ウェブサイト、書籍、記事、その他一般に公開されているソースなど、インターネット上の幅広いテキストから構成されています」とChatGPTは答えました。その曖昧な答えに満足せず、私はChatGPTにコーパスに含まれるデータの種類を詳しく尋ねました。今度はChatGPTがさらに詳しく答えてくれました：

ウェブサイト：様々なドメインやトピックのウェブサイトからのテキスト。
書籍：様々なジャンルやテーマをカバーする幅広い書籍からのテキスト。
記事：ニュース記事、雑誌の特集記事、ブログ記事のテキスト。
研究論文：科学論文や出版物のテキスト。
会話データ：対話、会話、インタラクションのテキスト。
ソーシャルメディア：Twitter、Reddit、オンラインフォーラムなどのプラットフォームからのテキスト。
ウィキペディア：多くのトピックにまたがるウィキペディア記事のテキスト。

ChatGPTのコーパスには、画像という大きな欠落があります。ChaptGPTはテキストベースのAIジェネレーターだからです。コーパスに学習用の画像が含まれていないため、画像を生成することができないのです。

MidjourneyとChatGPTに集められたデータは、コーパスを構成する2つの例に過ぎません。しかし、コーパスはどんな種類のデータでも作ることができます。例えば、音楽を作れるAIを作りたかったら、単純にオーディオの曲をコーパスに含めればいいです。あるいは、ヘミングウェイのようなまばらな文体の小説を書けるAIを作りたかったら、ヘミングウェイの作品だけを集めたコーパスを使うだろう。

コーパスの合法性

AIに与えるコーパスがなければ、AIは学習できません。また、コーパスが大きければ大きいほど、AIはより熟練した、つまりより知的な存在になります。しかし、AIのコーパスを構成する実際のデータは、著作権法や知的財産法に関して、まったく新しい問題を引き起こす可能性があります。

著作物のコーパスで学習させたAIの所有者は、法律に違反したのでしょうか？例えば、私がバンクシーのようなアートワークを生成できるAIを作り、バンクシーの作品のコーパスでAIを訓練した場合、バンクシーの著作権や知的財産を侵害したことになるのだろうか？私のAIはバンクシーの作品を再現しているわけではなく、彼のスタイルを再現しているだけなので、やはり著作権や知的財産の侵害になるのでしょうか？あるいは、リアーナの曲を含むコーパスを持つAIを作ったとしよう。そのAIは、リアーナの声、あるいはそれに近いものを使って、まったく新しいオリジナルの曲を生成することができます。それは合法ですか？

ユニバーサル・ミュージック・グループは、ドレイクとザ・ウィークエンドのAIが生成した楽曲が今年初めにストリーミング・サービスで話題になった後、すでに「ノー」と強く回答しました。しかし、AIツールを使うクリエイターはそうではないと言うかもしれません。結局のところ、AIが生成したオーディオ、ビジュアル、テキストベースのメディアのいずれに関しても、ChatGPTやMidjourneyのようなジェネレーティブAIプログラムが一般的になるにつれ、この問題は今後何年にもわたって世界中の裁判所を巻き込むことになるだろう。

同時に、各国政府はすでに生成AIモデルに規制を設ける法律を計画しています。例えば欧州連合（EU）は、AIの所有者に対し、AIのコーパスに著作物が含まれているかどうかを明らかにすることを義務付ける法律を提案しています。透明性が確保されれば、著作権者は自分の作品がどのコーパスに使用されたかを特定しやすくなり、補償金を求めることができるようになります。

米国では、議会調査局が最近、議会に対し、著作権法を更新する前に「様子見アプローチを採用する」ことを望むかもしれないと助言し、AIが生成した著作権事件に対する今後の裁判所の反応を監視するよう示唆しました。

収益源としてのAIコーパス

もちろん、コンテンツクリエイターの中には、AIがもたらす収益機会を受け入れることを選択する人もいるだろう。例えば、現役の画家が小遣い稼ぎをしたいと考えたとしよう。彼女は自分の作品集をコーパスにまとめ、生成AI企業にそのコーパスへのアクセスを売ることができます。そして作家は小説のコーパスを、雑誌出版社はバックナンバーのコーパスを、歌手はヴォーカルのコーパスを売ることができます。

イーロン・マスクが低迷するTwitterに新たな収益源を求めるなら、プラットフォーム上のすべてのツイートをコーパス化してAIスタートアップに売ることを考えるかもしれません。MetaのFacebookも、この方法で新たな収益源を見つけるだろう（TwitterとMetaがユーザーの投稿の所有権を主張できればの話だが）。実際、Redditのユーザー投稿コーパスは、ChatGPTのトレーニングに利用されており、Reddit CEOのSteve Huffmanは、The New York Timesとの最近のインタビューで、そのコーパスの価値を知っていると語りました。「Redditのコーパスデータは本当に価値があります。しかし、その価値をすべて無料で世界最大級の企業に提供する必要はありません」

この意味で、より多くの企業がAI分野に進出するにつれて、堅牢であらかじめパッケージ化されたコーパスは、ゴールドラッシュの鉱山労働者にとってのピッケル斧のように、ハイテク業界において重要なものとなり、コーパス販売業者のまったく新しい家内工業が出現するかもしれません。
もしそうだとすれば、今後数カ月、数年のうちに、AIについて語り、議論する際に「コーパス」は常用語になるだろう。

以上、AIコーパスについて詳しく紹介しました。ほかのAIベース製品に関心を持つ方に、AI画像高画質化ツール、そしてAIイラスト自動生成サイトをおすすめします。

AIコーパスとは何か？

コーパスの種類

コーパスの合法性

収益源としてのAIコーパス

Discussion