😺

huggingface datasets へのアップロードメモ

2023/07/18に公開

hugginggface datasets に lfs で 300 GB くらいアップロードしようとしたいけどうまくいかん...

LFS: Authorization error: https://s3.us-east-1.amazonaws.com/lfs.huggingface.co/

Authentication required: Invalid username or password

などが出る.

どうも DDoS 対策なのか, s3 への quota なのか(huggingface dataset は AWS 使っている模様)で引っかかるようです.

  • 何度か push 試す
    • 数分空けてみるとか...
  • repo を作り直して(lfs でファイル変更の履歴を消して)アップロードしてみる
  • ディレクトリごとのファイル数を制限する(1024 個までとか)

で解決できるかも?

huggigface forum あたりに似たようなエラーレポートがありますが,
hf 側は相変わらずの塩対応で解決策も出していないので, 参考になりません.

work around

git push に fail したら時間をおいてリトライする bash script でそこそこいい感じに対応できました.

for i in `seq 0 1000`; do
  echo $i
  git push origin main
  if [ $? -eq 0 ]; then
    break
  fi

  sleep 60
done

TODO

  • repo 内で lfs の履歴を全部削除する方法を探す
    • 最新の revision しか残さないようにしてみる
  • 自前で hosting する.
    • 自前ストレージ(chia farmikng とかで空いている領域とか)を, tailscale や Cloudlare tunnel + nginx で帯域制限など + 特定ディレクトリを read-only で公開, がよいでしょうか

Discussion