FineWeb : decanting the web for the finest text data at scale
要約
このテクニカルレポートは大規模言語モデルの学習に使用する高品質なウェブテキストデータセット FineWeb の作成方法について詳細に説明している
-
CommonCrawl のテキストデータを抽出しベースフィルタリングを行った
-
MinHash を用いて各クロールデータの重複を個別に除去した。これによりデータ品質が向上した
-
C4 データセットで使用されているフィルターや独自のフィルターを適用することで更なる品質向上を図った
-
最終的に 15 兆トークンからなる FineWeb データセットを構築した。これは他のオープンデータセットよりも優れたパフォーマンスを示した
-
Llama-3-70B-Instruct を用いて教育的品質のアノテーションを行い、分類器を学習させることで FineWeb から教育的に高品質な部分集合 FineWeb-Edu を抽出した
-
FineWeb-Edu は MMUL や ARC などの教育ベンチマークにおいて他のすべてのデータセットを上回る性能を示した
-
またクロールごとのベンチマーク性能の違いや最近のクロールデータに合成データが増えている可能性についても考察している
Introduction
- 大規模言語モデル (LLM) の性能は事前学習データセットの品質とサイズに大きく依存する
- 最先端のオープン LLM の学習データセットは公開されておらず、その作成方法もほとんど知られていない
- 15兆トークン (44TB) の新しい大規模データセット 🍷 FineWeb を紹介する
- 96 の CommonCrawl スナップショットから派生
- 他のオープンな事前学習データセットよりも優れたパフォーマンスの LLM を生成
- FineWeb のデータ重複除去やフィルタリング戦略などの設計選択について詳細に説明・検証する
- 教育的価値を目的とし、高品質アノテーションを用いて FineWeb から構築された 📚 FineWeb-Edu についても紹介
- MMLU, ARC, OpenBookQA などの教育ベンチマークで公開されている全ウェブデータセットを上回る性能を示す
- このブログでは以下の内容を扱う :
- 大規模データの処理と品質評価
- 🍷 FineWeb の設計方針とその説明
- 📚 FineWeb-Edu サブセットの作成プロセス
Web data
Finding the raw data
- Web データを収集する際は自前でクローリングするか CommonCrawl などの公開リポジトリーを使用する選択肢がある
- 🍷 FineWeb では CommonCrawl (CC) を出発点として使用した。CC は毎月 200-400TiB のテキストコンテンツを含む新しいクロールをリリースしている
Processing at scale
- データ処理の際はモジュール性とスケーラビリティーを持つコードベースが重要
- 🍷 FineWeb の作成ではオープンソースのデータ処理ライブラリー datatrove を開発・使用しフィルタリングと重複排除を何千もの CPU コアにスケールさせた
What is good data?
- 大規模言語モデルの学習におけるデータの「高品質」は明確に定義されておらず人間の直接観察だけでは判断が難しい
- データセットを評価するには小規模モデルを代表的なサブセットで学習させ diverse かつ representative な評価タスクセットでテストするのが一般的
- 人間による評価が最も信頼できるがコストと時間がかかるため小規模モデルによる評価を品質の代理指標として用いる
Ablations and evaluation setup
- 処理ステップの影響を比較するため、あるステップの有無で 2 つのデータセットを作成し、それぞれで学習したモデルを同じタスクで評価・比較した
- 評価タスクは CommonSense QA, HellaSwag, OpenBook QA, PIQA, SIQA, WinoGrande, ARC, MMLU を使用。小規模学習でも十分なシグナルが得られるよう選定した
The 🍷 FineWeb recipe
Starting point : text extraction
- CommonCrawl の WARC ファイルから trafiltura ライブラリーを使用してテキストを抽出
- WET ファイルを直接使用するよりも品質が向上
Base filtering
- 成人向けコンテンツのブロックリストを使用した URL フィルタリング
- fastText の言語分類器で英語のテキストのみを抽出(スコア ≥ 0.65)
- MassiveText の品質・反復フィルターを適用
- フィルタリング後、約 36 兆トークンのデータが得られた
Deduplicating the data
- MinHash を使用して各ダンプ内の重複を個別に除去
- 全ダンプを一括で重複排除するよりも個別に行う方が性能が向上
- 重複排除後、約 20 兆トークンのデータが得られた
Additional quality filtering
- C4 データセットで使用されているフィルター(lorem ipsum, JavaScript, ポリシールールなど)を適用
- 独自の品質フィルターを追加 :
- 句読点で終わる行の割合が 0.12 以下のドキュメントを削除
- 重複行の文字の割合が 0.1 以上のドキュメントを削除
- 30 文字未満の行の割合が 0.67 以上のドキュメントを削除
The final 🍷 FineWeb dataset
- 最終的な 🍷 FineWeb データセットは上記の手順を経て完成
- 15兆トークンからなり他のオープンデータセットよりも優れたパフォーマンスを示す
📚 FineWeb-Edu
- FineWeb から教育的に高品質な部分集合を抽出したデータセット
- 🍷 FineWeb や他のオープンウェブデータセットを上回る性能を示す
Annotating for educational quality at scale
- Llama-3-70B-Instruct を使用して FineWeb から 50 万サンプルに教育的品質スコア (0-5) を付与
- 教育スコアの自動抽出には additive scale が最適であることを確認
- 高校・中学レベルの知識に焦点を当てることで技術的なページの優先度を下げた
Training a classifier
- Llama3-70B のアノテーションを使用して小規模な分類器を学習
- Snowflake-arctic-embed モデルにクラス分類ヘッドを追加
- スコアを 0-5 の整数に丸めて閾値 3 でバイナリー分類問題に変換
Filtering and results
- 学習した分類器を FineWeb の 15 兆トークンに適用
- 閾値 3 を使用すると全体として最良の結果が得られた
- 閾値 3 でフィルタリングした結果 1.3 兆トークンの非常に高度な教育的コンテンツデータセット📚 FineWeb-Eduが完成
- 閾値 2 でフィルタリングした 5.4 兆トークンの高度な教育的コンテンツデータセットも公開
Bonus : CommonCrawl over time
フィルタリングのステップを検証している間に特定のクロールデータが他のものよりも著しく優れた性能を示すことに気づいた
Benchmark performance by crawl
- 各クロールデータについてベースフィルタリングと MinHash の重複排除後のデータから 270 億トークンをサンプリングし 1.8B モデルを 2 つ学習させた
- 合計 192 のモデルを学習させ 6 万時間以上の GPU 時間を要した
- 一部のダンプは他のものよりもはるかに低い性能を示すことが明らかになった
Synthetic data
- 最近のクロールデータの高い性能が LLM によって生成された合成データの増加に起因している可能性について検討した
- 合成データを検出する確実な方法がないため ChatGPT でよく使用されるフレーズの頻度を代理指標として測定した
- 2023 年以降のクロールデータでこれらのフレーズの頻度が急激に増加していることがわかった
- ChatGPT の生成物などの合成データが最新のクロールの品質を大幅に低下させているとは言えないが少なくとも大きな悪影響は与えていないと考えられる
- ただし合成データの割合は今後も増加すると予想されるため大規模な学習における影響については不明である
Conclusion and looking forward
著者らはオープンサイエンスの取り組みを通じて高性能な大規模言語モデルの学習における「ブラックボックス」に光を当て続け、すべてのモデル開発者に最先端の LLM を作成する能力を提供したいと考えている。今後も FineWeb の改良を重ねウェブデータのより良いフィルタリング済みサブセットを完全にオープンかつ再現可能な方法で公開していく予定である
短期的には FineWeb から得られた知見を英語以外の言語に応用することを楽しみにしている。現在 LLM の世界では英語が支配的だが他の言語の高品質ウェブデータをできるだけアクセスしやすくすることは非常に大きな影響があると考えている
要約すると:大規模データセットの作成方法を研究する未来は明るくエキサイティングである 🤗
Discussion