📚

AI企業はインターネットを使い果たそうとしている

2024/04/11に公開

本記事はLifehackerにより翻訳されたものです。

AIは消費するインターネットを使い果たしています。あなたや私がこのワールドワイド・ウェブにログインして楽しんだり（あるいはそうでないかもしれませんが）、教育したり、つながったりしている間に、企業はそのデータを使って大規模言語モデル（LLM）を訓練し、その能力を高めています。

ChatGPTは事実情報だけでなく、どのように返答をつなげるかも知っているのです：ChatGPTが「知っている」ことの多くは、インターネット・コンテンツの膨大なデータベースに基づいています。

しかし、多くの企業がLLMを訓練するためにインターネットに依存している一方で、彼らは問題にぶつかっています。インターネットは有限であり、AIを開発する企業はそれらが急速に成長し続けることを望んでいます。ウォール・ストリート・ジャーナル紙が報じているように、OpenAIやグーグルのような企業はこの現実に直面しています。業界の予測では、高品質なデータが不足し、特定の企業がデータをAIの手に渡さないようにするため、2年程度でインターネットを使い切るだろうと言われています。

AIは大量のデータを必要とする

これらの企業が現在、そして将来的に必要とするデータ量を過小評価してはいけません。エポック社の研究者であるパブロ・ヴィラロボス氏がウォール・ストリート・ジャーナル紙に語ったところによると、OpenAIはGPT-4を約1200万語のトークンで訓練したという。(OpenAIによれば、1トークンは約0.75ワードなので、1200万トークンはおよそ900万ワードになります）。Villalobos氏は、OpenAIの次の大きなモデルであるGPT-5では、予想される成長に追いつくために60兆から100兆のトークンが必要だと考えています。これはOpenAIの計算によれば、45兆から75兆ワードに相当します。そのキッカーは？Villalobos氏によれば、インターネット上で入手可能なすべての高品質データを使い切った後でも、10兆から20兆、あるいはそれ以上のトークンが必要になるという。

それでもビラロボスは、このデータ不足が本格的になるのは2028年頃だと考えています。しかし、それほど楽観視していない企業もあります。彼らは壁に書かれた文字を見て、モデルを訓練するためのインターネットデータに代わるものを探しています。

AIデータの問題

もちろん、ここでもいくつかの問題があります。まず、前述のデータ不足である：データがなければLLMを訓練することはできないし、GPTやGeminiのような巨大モデルは大量のデータを必要とします。インターネット上にはゴミのようなデータが大量にあるため、企業はインターネット上のありとあらゆる場所をかき集めようとはしません。OpenAIの目標は、ユーザーのプロンプトに正確に反応できるLLMを作ることなので、誤った情報や稚拙なコンテンツをGPTに送り込みたくはありません。(もちろん、AIが誤った情報を吐き出す例はすでにたくさん見てきました）。そのようなコンテンツをフィルタリングすることで、以前よりも選択肢が少なくなります。

最後に、そもそもインターネット上でデータをスクレイピングすることの倫理があります。あなたが知っていようといまいと、AI企業はおそらくあなたのデータをスクレイピングし、彼らのLLMを訓練するために使用しています。これらの企業はもちろん、あなたのプライバシーなど気にしていません：ただデータが欲しいだけなのです。それは大きなビジネスでもあります：RedditはあなたのコンテンツをAI企業に売っているのです。ニューヨーク・タイムズがこの件でOpenAIを提訴するなど、反撃しているところもありますが、真のユーザー保護が法制化されるまでは、公共のインターネット・データはあなたの近くのLLMに向かうことになります。

では、企業はこの新しい情報をどこに求めているのでしょうか？OpenAIはその先頭に立っています。GPT-5では、同社のWhisper transcriberを使い、YouTubeからスクレイピングしたような公開動画のトランスクリプションでモデルをトレーニングすることを検討しています。(同社はすでに、AIビデオジェネレーターであるSoraのためにビデオそのものを使用している可能性があります）。OpenAIはまた、特定のニッチ向けのより小さなモデルの開発や、そのデータの品質に応じて情報提供者に報酬を支払うシステムの開発にも取り組んでいます。

合成データが答えか？

しかし、おそらく一部の企業が検討している最も議論の余地のある次のステップは、モデルを訓練するために合成データを使用することである。合成データとは、単に既存のデータセットによって生成された情報のことである：元のデータセットに似ていますが、全く新しいデータセットを作成することである。理論的には、元のデータセットの内容を隠蔽し、LLMに同じようなデータセットを与えて学習させることができます。

しかし実際には、合成データでLLMをトレーニングすると、「モデル崩壊」を引き起こす可能性があります。合成データには、元のデータセットにあった既存のパターンが含まれているからです。一度同じパターンでLLMを訓練すると、LLMは成長することができず、データセットの重要な部分を忘れてしまうことさえあります。時間が経つにつれて、AIモデルが同じ結果を返すことに気づくでしょう。ユニークな反応をサポートする多様なトレーニングデータがないからです。そうなると、ChatGPTのようなものは使えなくなり、そもそも合成データを使う目的も失われてしまいます。

それでも、AI企業はある程度、合成データを楽観視しています。AnthropicとOpenAIの両社は、自社のトレーニングセットにおいてこの技術を活用できると考えています。これらの企業は有能であり、もし彼らが家を燃やすことなく合成データをモデルに導入する方法を見つけ出すことができれば、さらに大きな力を発揮するでしょう。実際、2010年の私のFacebookの投稿がAI革命の燃料として使われていないことを知るのはいいことです。

以上、AI企業はインターネットを使い果たそうとしているという現状について紹介しました。ほかのAIトレンドに関心を持つ方に、低画質な画像を一瞬で高画質化するVanceAI画質向上や、最高なぼかし除去サイトを目標に働いているVanceAI画像鮮明化という二つのAI製品を試すのをお勧めします。

AIは大量のデータを必要とする

AIデータの問題

合成データが答えか？

Discussion