📘FineWeb : decanting the web for the finest text data at scale2024/06/03に公開2024/06/06大規模言語モデルminhash重複排除教育的に高品質なデータセット独自フィルターアノテーションで分類器を学習techDiscussion
Discussion