Open3
s3(parquet)からのデータ移行について

S3のparquetファイルの取り扱いがとにかく面倒くさい。特にs3のparquetファイルをTiDBに移すときに、高速かつ手戻りの少ない(エラーが起こったときにリカバリが容易な)手段がないか検討する

TiDB Cloudのimport機能
基本的にTiDB Lightningの機能をベースとしており、Aurora Snapshot形式のparquetに対応。blobなどには対応していない。
- importは高速(100-500GB/h)
- エラーは検知できる
- リカバリはできない。やり直しのみ

DuckDB
parquetとMySQLの両方を扱えて、INSERT INTO SELECTやCREATE .. as SELECTが可能。
- 型の推測が正しくないこともあり、CREATEはとりあえず入ればいいやというのでない限りおすすめできない。
- 複数のParquetファイルを簡単に取り扱うことが可能
- pythonなどに埋め込んでジョブを作ることができる
- importは論理モードなのでLightningに比べると低速ではないかと思う