💭
RedPajamaData-1T には壊れたファイルがある
自前で LLaMa 学習したい...
RedPajama-Data いいね!
で huggingface datasets 経由で落とせますが, 壊れたファイルがあって途中でエラーになります.
解決
とりあえず壊れたファイル無視して処理継続するようにすればいけます...
元データのほうで直ってほしいところ...
自前で LLaMa 学習したい...
RedPajama-Data いいね!
で huggingface datasets 経由で落とせますが, 壊れたファイルがあって途中でエラーになります.
とりあえず壊れたファイル無視して処理継続するようにすればいけます...
元データのほうで直ってほしいところ...
Discussion