ジェネレーティブAIの効率化はまだ解明されていない
本記事は、Fastcompanyにより翻訳された記事です。
ジェネレーティブAI革命には汚い秘密が潜んでいます。それは、金銭面でも環境への影響でも、その代償は甚大だということです。
OpenAIのCEOであるサム・アルトマンは以前、ChatGPTのプレミアム版を支える大規模言語モデル(LLM)であるGPT-4のトレーニングには1億ドルかかったと語っています。OpenAIのLLMのトレーニングデータは、言語モデルが 「知識 」の基礎を形成するために熟読しなければならないインターネットの膨大なスライスから得られます。OpenAIのLLMの旧版であるGPT-3のトレーニングは、二酸化炭素換算で550トン以上を排出したと報告されています。ChatGPTと20問の会話をすると、標準的なボトル1本分に相当する500ミリリットルの水を無駄にしたことになります。
競合他社がオープンソースの代替技術を開発しようとしているにもかかわらず、ジェネレーティブAIは依然として総当たり戦です: 可能な限りの計算能力とデータを問題に投入し、何が起こるかを見つめるだけ。
もちろん、このアプローチは環境にとって最悪であり、天文学的な金額を支払う余裕のある人しか、最も強力なLLMにアクセスできません。そこで研究者たちは、LLMの訓練と検証をより効率的に行うためのショートカットなど、一連の回避策を開発しようと試みてきました。これらの回避策は、使用前のAIモデルの訓練に費やす時間、労力、費用を削減するために考案されたもので、主要な大手テック企業以外の専門的なLLMを独自に開発したい個人や組織にとって不可欠なものとなるだろう。
問題はこのような回避策は、AIモデルをゼロから訓練するのに必要な計算能力を低下させ、独自のモデルを開発する価格を下げ、その作成に関連する環境リスクを減らすかもしれませんが、新しい研究によると、それははるかに効果的でなくなります。「妥当なパフォーマンスを得るためにモデルを訓練することは、通常非常にコストがかかります」と、ユニヴァーシティ・カレッジ・ロンドンの博士課程の学生で、この研究の著者の一人であるジャン・カドゥールは言います。
研究者たちは、さまざまなショートカット法(大きく3つのカテゴリーに分類される:トレーニングデータの一部を無視する、無関係なデータをスキップする、より効率的にデータを最適化する)を比較し、それらが実際に機能するかどうかを確認しました。
訓練をより効率的なモデルにするためのさまざまな方法が、2つの人気のあるLLMであるT5とBERTに対してテストされました。T5とBERTはどちらも、2017年に初めて提唱され、ChatGPTのGPT-3やGPT-4など他のLLMも採用しているAIモデルをアーキテクチャーする方法であるトランスフォーマー・アプローチに使用しています。T5とBERTのモデルは、6時間、12時間、24時間のトレーニングで評価したショートカット法を用いてトレーニングされました。
「結論として、多くの場合、これらの方法は私たちの実験において有意な改善をもたらさなかったというもので、これらは通常かなり複雑で、実装により多くの労力を必要とします。」とカドゥールの共著者の一人で、ユニヴァーシティ・カレッジ・ロンドンのオスカー・キーは言います。詳細な結果は導入されたショートカットの種類によって異なりますが、ある方法が標準的な(計算量の多い)アプローチよりも若干の改善をもたらした一方で、多くのショートカットと思われる方法は、パフォーマンスを著しく悪化させる結果となりました。
「これは、小規模な組織内や個人向けに専門的な仕事を行うために、特別に訓練されたLLMを多数抱えるだろうという主張に大きなひっかかりを与えるものだと思います。」英国のデ・モントフォート大学の研究者で、この研究には参加していないキャサリン・フリックは言います。「気候への影響を抑えたい組織にとって、新しいモデルを訓練するためのエネルギー使用コストなしに、必要なパフォーマンスを得ることはできないだろう。」
フリック氏は、今回の調査結果がさらに重大な問題を浮き彫りにしていると考えています。 「このことは、エネルギー使用の観点からもこの分野の規制を開始する必要性を示しています。なぜなら、大手 AI 企業も既存のモデルにとどまることはなく、新しい反復のたびに、ますます多くのデータに基づいてトレーニングされることになるからです」と彼女は言います。
大規模な言語モデルがわかりやすく関連性の高い結果を生成する機能は、言語モデルを最も頻繁に使用する人々の間ですでに熱い話題となっており、ユーザーからの質問に対してChatGPTがどのように関連性の低い回答を生成しているかについての苦情が定期的に寄せられています。独自のAIモデルをトレーニングしたいと考えている人の多くが、モデルの有効性を犠牲する場合、計算量を軽減するアプローチのために実用性を犠牲にすることをいとわないでしょう。
その結果、カドゥール氏は、Meta社が最近リリースしたLlama 2のような、事前にトレーニングされたモデルを使用することを推奨しています。Llama 2は、事前トレーニングに必要なパラメータが最大700億個、トークンが最大2兆個と、LLMの最初のバージョンよりも40%データ量が多く、本質的に計算が複雑であるが、トレーニングを単一のインスタンスに集中させることができるため、他のユーザーが広く使用することができます。
カドゥールは「商用ライセンスが認められたのは今回が初めてなので、企業でもこれらのモデルをビジネス・アプリケーションに使用できるようになりました」といいます。 「つまり、初期トレーニングは非常に高価ですが、今では多くの異なる人々にわたって償却することができるのです。」
以上、ジェネレーティブAIの効率化はまだ解明されていないという現状を紹介しました。AIトレンドに関心を持つ方に、AIによる画像のピンボケを補正し、写真を一瞬でくっきりさせるVanceAI画像鮮明化をおすすめします。
Discussion