大規模言語モデルにおけるData-Centric AI
これまでのAI研究では、解きたい問題に対するAIの性能を向上させるために、モデルの設計を改善することに重点が置かれてきたが、最近ではデータの量や品質、信頼性を確保することでAIの性能を向上させる方向性の研究が増えている。そのきっかけの一つは、2021年のAndrew Ng先生の講演「MLOps: From Model-centric to Data-centric AI」の中で、Data-centric AIという概念が提唱されたことである。また同年、AI分野の最高峰の国際学会であるNeurIPSが、新たな研究トラックとしてDatasets and Benchmarks Trackを発足したことも、Data-centric AIの研究が活発化したことに寄与している。このような研究の流れの中で、私自身もData-centricな視点でのAI研究を進めており、NeurIPSのDatasets and Benchmarks Trackに2023年、2024年と連続で主著論文を投稿している。本ブログは、近年急速に発展している大規模言語モデル(LLM)において、どのようなData-centricな研究が進められているのかを調査したものである。内容は、2024年6月に公開されたポジションペーパー「Data-Centric AI in the Age of Large Language Models」を参考に、Data-centric視点からLLMにおいて重要な技術や研究についてまとめた。
LLMにおけるデータの重要性
LLMは通常、インターネットなどから収集した大規模なテキストデータを用いて学習し、言語能力や汎用的な知識を獲得するため、この学習に用いるデータの量や質が重要であるということは直感的に理解できるはずである。データの量が重要であることが示された代表的な研究は、2020年にOpenAIの研究者たちが発表した論文[Kaplan+, 2020]で示されたScaling Lawである。この研究では、下図の真ん中のグラフのように、データセットのサイズが増加するにつれてTransformerベースの言語モデルの性能が向上することを経験的に示した。
出典:[Kaplan+, 2020]のFigure 1
この発見以降、言語モデルの学習に使用されるデータセットのサイズは急激に増加し、この傾向は今後も続くことが予想される。一方、[Villalobos+, 2022] では将来的なデータセットの枯渇に対して警鐘を鳴らしている。この研究では、現在のLLMの開発トレンドが続いたと想定した場合の学習データセットの需要の成長を予測した結果、下図のように2026年から2032年の間にモデルが利用可能な人間が作成した公開テキストデータの量とほぼ同じサイズのデータセットが学習に利用されることを示している。つまり、人間が作成した公開テキストデータでは、現在のLLMのスケーリングを10年も維持できないと主張している。
出典:[Villalobos+, 2022]のFigure 1
この課題を解決するシンプルなアプローチは、膨大な合成データを生成することであるが、もう一つの有望なアプローチはデータの量ではなく質にフォーカスすることである。データの質を向上させることは、Scaling Lawの形・傾きを劇的に変化させる可能性があり、より小さなモデルや少ないデータで高い性能を実現することが期待できる。例えば、[Gunasekar+, 2023]では、1.3Bパラメータのphi-1というモデルを、Webからフィルタリングした教科書レベルの品質のデータ(6Bトークン)と、GPT-3.5に生成させたデータ(1Bトークン)で学習させた。下表に示した通り、phi-1は、他のモデルと比較して、数桁小さいモデル、少ないデータにも関わらず、他のモデルを上回るもしくは匹敵する性能を実現した。これにより、高品質なデータがモデルの性能を大幅に向上させることが示唆された。
出典:[Gunasekar+, 2023]のTable 1
学習データの質の重要性を裏付ける他の研究事例として、[Marion+, 2023]は、元の学習データセットをより高品質なサブセットにPruning(剪定)する方法が、LLMの性能に与える効果を調査した。その結果、perplexityを指標としたPruningにより元の学習データセットのわずか30%のデータを用いた学習でさえも、Pruningなしのベースラインを上回る性能を達成できることを示し、質の高いデータを自動的に選定する新たな戦略の基盤を築いた。
ここまでは、モデルの学習段階におけるデータの重要性について述べたが、推論段階においても同様にLLMに与えられるデータが重要である。GPT-3の論文 [Brown+, 2020]では、推論時に解きたいタスクに関する説明に加えて少数の例を与えるFew-shot learningによりモデルの性能が向上することを示した。また、[Lu+, 2021]では、モデルに与える例の順序がモデルの性能に影響を与えることを示し、効果的な順序について議論している。
Data-centricの4つのシナリオ
ポジションペーパー「Data-Centric AI in the Age of Large Language Models」では、LLMにおけるData-centric視点の研究について、下図に示したLLMとデータ間の相互作用が異なる4つのシナリオに分類している。以下、それぞれのシナリオについての概要と代表的な研究を紹介する。
出典:[Xu+, 2024]のFigure 1
Data Curation
データキュレーションとは、インターネット上などに存在する膨大なデータを収集・選別・編集し、新たな価値を持たせて共有することである。前述の通り、LLMの学習に用いるデータセットの質の重要性はいくつもの研究で検証されているが、効果的な学習データセットの根底にある重要なファクターは未だよくわかっていない。この課題に取り組み、効果的・効率的なLLMの学習を実現する新たなデータキュレーション技術の研究を進めるためには、まず学習データセットのスケールや異質性(例えば、マルチドメイン、マルチモダリティ、マルチソースなど)などの影響を評価するためのData-centricなベンチマークの構築が必要である。Data-centricなベンチマークは、データを固定してモデルや学習コードを改善する従来の機械学習のベンチマークとは逆で、モデルや学習コードを固定してデータセットを改善していくアプローチである。
代表的な研究として、[Gadre+, 2023]で提案されたマルチモーダルデータセット設計のためのベンチマークであるDataCompがある。DataCompは、大規模な学習データセットを構築する際に発生する重要な課題として、与えられたデータソースをどのようにフィルタリングするか(Filtering track)、およびどのデータセットで学習するか(Bring your own data track)の二つに焦点を当てている。Filtering trackでは、Common Crawlから収集された128億の画像とテキストのペアのデータセットを用いて、モデルを学習するための最適なサブセットを構築することを目指す。Bring your own data trackでは、自由なデータソースからキュレーションして独自に構築した新しいデータセットを用いてモデルを学習し、38のダウンストリームテストセットでモデルの性能を評価することで、新しいデータセットを評価する。下図は、全体的なDataCompのワークフローを示している。本論文では、二つの有力なフィルタリング手法を組み合わせることで作成した新たなマルチモーダルデータセットDataComp-1Bを用いて学習したモデルが、OpenAIのオリジナルのCLIPモデルを上回る性能を達成したことが報告されており、データセットのフィルタリングの重要性を強調した。
出典:[Gadre+, 2023]のFigure 1
次のステップとして、LLMの学習のためのデータキュレーション技術の開発が必要である。事前学習に用いるデータは、多様かつ複数の異なるドメイン(書籍、Wikipedia、学術論文など)にまたがることが好ましい。キュレーションプロセスは、ドメイン間またはドメイン内で異なる要件がある。ドメイン間のキュレーションではデータの異質性を最大化するべきである。[Xie+, 2023]は、LLMの学習データセットにおけるドメインの混合比率を最適化するためのアルゴリズムであるDomain Reweighting with Minimax Optimization (DoReMi)を提案した。一方、ドメイン内のキュレーションでは多様性を最大化するべきである。[Sachdeva+, 2024]は、データセットの多様性を向上させるためのサンプリング手法であるDENSITY samplingを提案し、25~50%程度のサンプリング率であってもモデルの性能を効果的に維持できることを示した。
また、モデルをダウンストリームのターゲットドメインに適用させるためのファインチューニングなどに用いるデータセットは、ターゲットドメインと利用できる学習データ間の分布の類似性が高いことが好ましい。データキュレーションには、モデル出力に対する各データの価値を定量化するData valuationの研究を適用したアプローチが多い。例えば、[Choe+, 2024]は、勾配ベースのData valuation手法としてよく用いられる影響関数(influence function)をLLMのような大規模なモデルにスケールするために計算効率を大幅に改善したLOGRAを提案した。
Attribution & Unlearning
LLMの学習データの多くはインターネットからスクレイピングされているため、学習データに知的財産権(著作権など)で保護されたテキストやコードが含まれることは避けられない。もし知的財産権侵害の問題が起きた場合、LLMの提供者はこの問題に対処すべきである。そのためには、問題があるLLMの出力のソースを追跡(Data Attribution)し、その影響を除去(Unlearning)する技術が必要がある。知的財産権の問題以外にもLLMの問題のある出力(有害なメッセージや危険な情報など)のソースを特定し、除去したいケースがあり、これらはLLMの安全性や信頼性において重要である。
Data Attributionには、個々の学習データに対して帰属する場合と、複数のデータソースの中から特定のデータソースに対して帰属する場合がある。個々の学習データに対する帰属は、影響関数を用いたアプローチが盛んに研究されているが、LLMではモデルのサイズが大きいため計算コストが大きな問題となる。[Grosse+, 2023]は、Eigenvalue-corrected Kronecker-Factored Approximate Curvature (EK-FAC)近似を用いて最大520億パラメータのLLMに対して影響関数をスケールアップする手法を提案した。他の既存研究として、例えば、[Kwon+, 2023]で提案されたDataInfや、[Guu+, 2023]で提案されたSimfluenceがある。
特定の学習データの効果を除去するUnlearningにおいて、最も確実な方法はターゲットとなるデータを除去した残りのデータを用いてモデルをゼロから学習することである。この方法は、学習に膨大な時間とコストを要するLLMのような大規模なモデルの場合は現実的ではない。代替案の一つは、ターゲットデータを除去した残りのデータを用いてモデルを追加でファインチューニングする方法である。一般に、ファインチューニングは、モデルをゼロから事前学習するより時間もコストも大幅に削減できる。しかし、どれくらいファインチューニングを実行すれば、ターゲットデータの効果を除去できるのかは不明確である。ターゲットデータの情報を活用したより直接的なアプローチとして、勾配上昇法(Gradient Ascent)を活用した[Yao+, 2023]が興味深い。本論文では、(1)有害な応答の除去、(2)著作権で保護されたコンテンツを要求通りに消去、(3)ハルシネーションの軽減という3つのシナリオにおいてUnlearningが有効であることを示した。下図は、本論文の設定の概要図である。
出典:[Yao+, 2023]のFigure 1
また、[Pawelczyk+, 2023]では、モデルパラメータを更新することなく、コンテキスト内で特定の入力を提供するだけでターゲットデータの影響を除去するIn-Context Unlearningを提案した。In-Context Unlearningでは、削除対象となるデータと異なるラベルを付けたデータをコンテキストとして提供することで、モデルの出力に対するそのデータの影響を取り除く。例えば、下図の例では、ID 1のAliceのデータが削除対象であり、入力コンテキストにはラベルをPositiveからNeutralに変更された情報が使用されている。
出典:[Pawelczyk+, 2023]のFigure 2
Knowledge Transfer
本格的なLLMの導入には膨大なコストがかかることや、多くのユーザーはそのような強力なLLMを必要としないことを考えると、ユーザーの特有のタスクにLLMをコスト効率よく適応させることは有用である。汎用LLMは、特化されたタスクを実行するために必要な知識を既に持っているため、それをよりコンパクトで特化されたモデルに知識を転移できる。このような知識移転は、まずLLMから知識を合成データとして抽出し、その合成データで学習させることで特化モデルに知識を浸透させることで実現できる。
合成データを作成するシンプルなシナリオは、ユーザがラベルなしデータを持っており、LLMがラベルを合成するケースである。[Hsien+, 2023]は、LLMからの出力をより小さなモデルの訓練に利用することで、従来のファインチューニングや蒸留よりもより少ない学習データでLLMに匹敵する性能を達成する新たな学習アプローチDistilling step-by-stepを提案した。本手法の特徴は、LLMが予測したラベルを正当化する自然言語の根拠を生成できることを利用した点である。下図のようなfew-shotプロンプティングにより、質問に対する答えとなるラベル(青色でハイライト)に加えて、ラベルの根拠(緑色でハイライト)をLLMから抽出し、これらをより小さなモデルの学習に利用した。評価の結果、最大2000倍小さいモデルでLLMを上回る性能が達成したことを報告した。
出典:[Hsien+, 2023]のFigure 3
より困難なシナリオは、ラベルなしデータさえも十分に利用できないケースである。この場合、LLMの生成能力を活用して追加のデータ収集を必要とせずに学習データを多様化することが有効である。このようなLLMを用いたData Augmentationに関する研究が、サーベイ論文[Ding+, 2024]に網羅的にまとめられている(下図参照)。
出典:[Ding+, 2024]のFigure 1
Inference Contextualization
LLMは推論時にデータを柔軟に利用し、出力の質を向上させることができるという他の機械学習モデルにはないユニークな能力を持っている。ここでは、LLMが推論時にデータを利用することを可能にする技術として、Retrieval-augmented generation (RAG)とIn-context learningの二つを紹介する。
RAGは、データストアとレトリバーの二つの主要な要素から構成される。RAGに関するポジションペーパー[Asai+, 2024]から引用した下図は、RAGを用いた言語モデルの全体像を描いている。ユーザーのクエリが与えられると、(1)レトリバーはデータストアから最も関連性が高く有益なデータを選択し、(2)LLMが出力を生成するためにクエリを文脈化する。
出典:[Asai+, 2024]のFigure 1
(1)については、データストアへの検索を改善することで、より効果的なデータ選択(より強い関連性など)を実現できる。現在、データストア内のデータはそれぞれ、インデックスを持っており、典型的にはデータの何かしらの意味を含む埋め込み空間内のベクトルが利用される。しかし、Q&Aタスクにおいて、一般に質問と回答は異なる意味を持つため、このインデックスはレトリーバが質問に対する正しい答えを特定するのに効果がない場合がある。そのため、データストア内のデータのベクトル埋め込みは改善の余地がある。(2)については、LLMがどのように検索されたデータを利用するかについての多くの研究が行われている。[Yao+, 2023]は、言語モデルが推論(reasoning)と行動(acting)を交互に行うことでタスク解決能力を高めるReActを提案した。ReActでは、外部の情報源(例えば、Wikipedia APIなど)から推論をサポートするために必要な情報を検索でき、それをもとに推論を更新できる。この仕組みにより、LLMが単純な質問応答を超えて、多段階の問題解決や意思決定を行えるようになることが期待できる。
また、検索を用いたモデル性能の改善に関する代表的な研究として、[Borgeaud+, 2022]で提案されたRetrieval-Enhanced Transformer (RETRO)がある。下図はRETROのアーキテクチャを示している。入力トークンはチャンクに分割され、各チャンクに対して検索データベースから類似するチャンクを検索する。検索されたチャンクは、Transformerエンコーダに渡され、エンコードされたチャンクの情報が、元の入力シーケンスにクロスアテンションを通じて統合される。このようにして、RETROは、入力シーケンスに加えて、外部データベースからの情報を利用して推論を行う。検索データベースのサイズを2兆トークンまで増やすと、RETROは25倍小さいパラメータ数のモデルでGPT-3に匹敵する性能を達成したことが報告された。
出典:[Borgeaud+, 2022]のFigure 2
最後に、In-context learning (ICL)について述べる。LLMへの入力に解きたいタスクに関するいくつかの例を提示するfew-shotプロンプティングは、LLMの性能向上に有効なアプローチである。この際に提示する例の選択や品質は、LLMの応答の品質に大きく影響を与えることが知られている。[Zhang+, 2022]は、例の選択がICLの性能を不安定にさせることを実験的に検証した。本論文は、この課題を解決するために、ICLにおける例の選択を逐次決定問題として定式化し、最適な方針を決定するための強化学習アルゴリズムを提案した。他の例選択の手法として、[Liu+, 2022]は、テストサンプルに対して意味的に類似した例を、埋め込み空間での距離に基づいて選択する手法を提案した。下図のように、テストサンプル(青色の星)に近い赤丸のサンプルがk近傍法により選択され、ICLに利用される。これにより、例をランダムサンプリングした場合と比べて、一貫して高い性能を達成した。
出典:[Liu+, 2022]のFigure 1
ここまでに紹介したRAGとICLは競合するものではなく、むしろ補完し合うフレームワークである。RAGを使えば、ユーザはデータストアのサイズを活用してより多くの情報を保持することができ、ICLを使えば、ユーザはその場で柔軟にクエリを介してデータを直接指定できる。
さいごに
本ブログでは、LLMにフォーカスしたData-centric AIの研究について、2024年6月に公開されたポジションペーパーを参考に概説した。LLMでは、学習段階と推論段階のどちらにおいてもデータが重要な役割を果たすため、LLMの性能を最大限発揮させることを目指して、様々な観点からデータを生成、制御、最適化する研究が盛んに進められていることがわかった。昨今の言語モデルにおいては、Transformerベースのモデルがデファクトスタンダードになっており、多くの人にとってModel-centricな研究や開発をする機会が少なくなっているのではないかと思う。一方で、Data-centricな研究や開発は、デファクトスタンダードが確立されていないことや、個々のドメインや組織ごとに期待することが異なることなどから、研究・開発者が取り組むべき課題が多いはずである。私自身も今後はData-centricな視点を大事にして今後の研究・開発を進めていきたい。
Discussion