AIに供給するデータが世界的に不足しつつある、と専門家が警告
本記事は、sciencea lertにより翻訳された記事です。
人工知能(AI)の普及がピークに達しているなか、研究者たちは、強力なAIシステムを動かす燃料である学習データが不足になる可能性があると警告しています。
その結果、AIモデル、特に大規模な言語モデルの成長が減速され、AI革命の軌道も変えられる可能性があります。
しかし、ウェブ上にどれだけのデータがあるかを考えると、なぜ潜在的なデータ不足が問題になるのだでしょうか?また、そのリスクに対処する方法はあるのでしょうか?
AIにとって高品質なデータが重要な理由
強力で正確、かつ高品質なAIアルゴリズムを学習させるには、多くのデータが必要です。例えば、ChatGPTは570ギガバイト、つまり約3000億語のテキストデータで訓練されました。
同様に、安定拡散アルゴリズム(DALL-E、Lensa、Midjourneyなど多くのAI画像生成アプリを支えている)は、58億の画像とテキストのペアからなるLIAON-5Bデータセットで訓練されたものです。アルゴリズムが不十分な量のデータで訓練されると、不正確または低品質の出力を生成することになってしまいます。
そして、学習データの質も重要です。ソーシャルメディアの投稿や不鮮明な写真など、質の低いデータは簡単に入手できますが、高性能なAIモデルを訓練するには十分ではません;ソーシャルメディア・プラットフォームから取得したテキストは、偏見や偏見に満ちている可能性があり、偽情報や違法なコンテンツが含まれている可能性もあります。例えば、マイクロソフトがツイッターのコンテンツを使ってAIボットを訓練しようとしたところ、人種差別的で女性差別的な出力を生成することを学習してしまいました。
このような理由から、AI開発者は、書籍、オンライン記事、科学論文、ウィキペディア、フィルタリングされた特定のウェブコンテンツのテキストなど、質高いコンテンツを求めています。Googleアシスタントは、セルフパブリッシングサイトSmashwordsから取り寄せた11,000冊のロマンス小説で訓練されたので、より会話しやすくなりました。
データは十分か?
AI業界は、より大規模なデータセットでAIシステムをトレーニングしてきたため、ChatGPTやDALL-E 3のような高性能なモデルが登場しています。同時に、オンライン・データ・ストックは、AIの訓練に使われるデータセットよりはるかに成長が遅いという調査結果も明らかです。
昨年発表された論文より、研究者グループは、現在のAIトレーニングの傾向が続けば、2026年までに高品質のテキストデータが枯渇すると予測しました。また、低品質の言語データは2030年から2050年の間に、低品質の画像データは2030年から2060年の間に枯渇すると推定しています。
会計・コンサルティンググループのPwCによれば、AIは2030年までに世界経済に最大15兆7000億米ドル(24兆1000億豪ドル)の貢献をする可能性があるという。しかし、使用可能なデータが不足すれば、その発展が遅れる恐れがあります。
心配すべきなのか?
上記の点は一部のAIファンを不安にさせてしまいましたが、状況は見た目ほど悪くないかもしれません。AIモデルが今後どのように発展していくかについては未知の部分が多いし、データ不足のリスクに対処する方法もいくつかあります。
AI開発者にとって、すでに持っているデータをより効率的に利用できるようにアルゴリズムを改善することは、ひとつのチャンスである。
今後数年のうちに、より少ないデータ、そしておそらくより少ない計算能力で、高性能なAIシステムを訓練できるようになるでしょう。これは、AIの二酸化炭素排出量を減らすことにもつながります。
もうひとつの方法は、AIを使ってシステムを訓練するための合成データを作成することです。つまり、開発者は必要なデータを、特定のAIモデルに合わせてカスタマイズして生成するだけでいいのです。
今時期、すでにいくつかのプロジェクトが合成コンテンツを使用しており、その多くはMostly AIなどのデータ生成サービスから供給されています。これは今後より一般的になるでしょう。
開発者はまた、大規模な出版社やオフラインのリポジトリが保有するような、無料のオンライン空間以外のコンテンツも探しています。インターネットが普及する前に出版された何百万ものテキストについて考えてみよう。デジタルで利用できるようになれば、AIプロジェクトに新たなデータ源を提供できるでしょう。
世界最大級のニュース・コンテンツ所有者であるニューズ・コーポレーション(同社はコンテンツの多くを有料で提供している)は最近、AI開発者とコンテンツ取引について交渉していると述べました。このような契約は、AI企業に学習データの対価を支払わせるもので、これまでほとんど無料でインターネットからデータをかき集めていた形式は違っています。
コンテンツ制作者たちは、AIモデルを訓練するために自分たちのコンテンツが無許可で使用されることに抗議しており、マイクロソフト、OpenAI、Stability AIといった企業を訴える者もいます。彼らの仕事に対して報酬が支払われることは、クリエイターとAI企業の間に存在する力の不均衡を回復するのに役立つかもしれません。
以上、AIに供給するデータが世界的に不足しつつあるという現状を紹介しました。人工知能を最大限に人類に貢献できるようにするには、まだまだ長い道がありますね。最後EコマースとAIの組み合わせに関心を持つ方に、AIによる商品画像の背景を自動的作成するVanceAI背景作成を試すのをおすすめします。
Discussion