😺
huggingface datasets へのアップロードメモ
hugginggface datasets に lfs で 300 GB くらいアップロードしようとしたいけどうまくいかん...
LFS: Authorization error: https://s3.us-east-1.amazonaws.com/lfs.huggingface.co/
Authentication required: Invalid username or password
などが出る.
どうも DDoS 対策なのか, s3 への quota なのか(huggingface dataset は AWS 使っている模様)で引っかかるようです.
- 何度か push 試す
- 数分空けてみるとか...
- repo を作り直して(lfs でファイル変更の履歴を消して)アップロードしてみる
- ディレクトリごとのファイル数を制限する(1024 個までとか)
で解決できるかも?
huggigface forum あたりに似たようなエラーレポートがありますが,
hf 側は相変わらずの塩対応で解決策も出していないので, 参考になりません.
work around
git push に fail したら時間をおいてリトライする bash script でそこそこいい感じに対応できました.
for i in `seq 0 1000`; do
echo $i
git push origin main
if [ $? -eq 0 ]; then
break
fi
sleep 60
done
TODO
-
repo 内で lfs の履歴を全部削除する方法を探す
- 最新の revision しか残さないようにしてみる
-
自前で hosting する.
- 自前ストレージ(chia farmikng とかで空いている領域とか)を, tailscale や Cloudlare tunnel + nginx で帯域制限など + 特定ディレクトリを read-only で公開, がよいでしょうか
Discussion