Closed3

BigQueryへのELTの構成に改めて思いを馳せる

koji_matskoji_mats

EmbulkでBigQueryにデータをロードする際に、BigQueryへのロードで型エラーとかなるとつらいので、とりあえずBigQueryへの読み込みでエラーにならない方法でロードしておいた方が良さそう。
そして、ロード後はBigQuery上で目的の形式へ変換するようにする。併せて、変換エラーになるレコードをエラーレコードとして別テーブルに抽出しておく。

koji_matskoji_mats

パターン1

Embulkで、データソースから全カラム文字列型で抽出してBigQueryにロード。BigQuery上で型変換エラーとなるレコードをエラーレコードテーブルにロード。型変換可能なレコードを目的のテーブルにロード。

koji_matskoji_mats

パターン2

Embulkで、データソースから全カラムを1つのJSONLに変換し1カラムに纏めてBigQueryにロード。BigQuery上でJSONの分解や型変換エラーとなるレコードをエラーレコードテーブルにロード。JSON分解や型変換可能なレコードを目的のレコードにロード。

このスクラップは4ヶ月前にクローズされました