Open3

s3(parquet)からのデータ移行について

bohnenbohnen

S3のparquetファイルの取り扱いがとにかく面倒くさい。特にs3のparquetファイルをTiDBに移すときに、高速かつ手戻りの少ない(エラーが起こったときにリカバリが容易な)手段がないか検討する

bohnenbohnen

TiDB Cloudのimport機能

基本的にTiDB Lightningの機能をベースとしており、Aurora Snapshot形式のparquetに対応。blobなどには対応していない。

  • importは高速(100-500GB/h)
  • エラーは検知できる
  • リカバリはできない。やり直しのみ
bohnenbohnen

DuckDB

parquetとMySQLの両方を扱えて、INSERT INTO SELECTやCREATE .. as SELECTが可能。

  • 型の推測が正しくないこともあり、CREATEはとりあえず入ればいいやというのでない限りおすすめできない。
  • 複数のParquetファイルを簡単に取り扱うことが可能
  • pythonなどに埋め込んでジョブを作ることができる
  • importは論理モードなのでLightningに比べると低速ではないかと思う