増え続けるFirestoreのデータをBigqueryへ保管

ピン留めされたアイテム

カニさん（そららいど）

手順

0:00 Firestoreの該当コレクションを毎日cloud functionでcloud storageへexportする。完了したらlambdaを呼び出す。
1:00 lambdaで、cloud storageからbigqueryの一時テーブルへデータをバッチ取り込み（上書き）
2:00 lambdaで、bqの一時テーブルから指定した日のデータをメインテーブルへ追加
2:00 lambdaで、Firestoreの元データを削除

Bigqueryでのテーブル管理

~~１ヶ月ごとにテーブルを新規作成する~~

カニさん（そららいど）

firestoreのエクスポート時の注意点：collection-idsを指定しないといけない

カニさん（そららいど）

firestoreに１日分のログを書き込むことになるので、コストを試算する。

カニさん（そららいど）

料金とか確認

そんなに高くなさそうなので全然あり。

カニさん（そららいど）

バッチ読み込みがコスト、パフォーマンス面でバランスがよさそう
バッチ読み込みは読み込みソースが限られる。
GCSにあるFirestoreエクスポートファイルを読み込むか、jsonファイル（これはGCSでなくてもよさげ）を読み込む方法が有力。
2つとも試したいが、Firestore エクスポートデータで済むならjsonの方法はいらないと思う。
bqでバッチ読み込み時にコレクションを指定して読み込めるが、コレクションを１つ指定してエクスポートしたデータのみが取り込めるため、既存の日時all-collectionsのバックアップデータは残念ながら取り込めないらしい。

カニさん（そららいど）

注意

エクスポートは、エクスポート開始時に取得された正確なデータベーススナップショットではありません。エクスポートには、オペレーションの実行中に追加された変更が含まれる場合があります。

カニさん（そららいど）

データのエクスポートをスケジュールする

エクスポートオペレーションには、エクスポート先の Cloud Storage バケットが必要です。

カニさん（そららいど）

実際にfirestoreからbigqueryにデータを転送することができたが、注意点がある。

firestoreからcloud storageにエクスポートする際に、cloud storageのリージョンは〜と〜が選択できるが、
bigqueryに読み込むときは、該当データセットのロケーションとcloud storageのバケットのロケーションは同じでないといけない？
データセットは、エクスポートファイルが格納される Cloud Storage バケットと同じリージョンまたはマルチリージョンのロケーションに存在する必要があります。
新しいテーブルを作成してデータを保存することも、既存のテーブルを上書きすることもできますが、既存のテーブルに Firestore エクスポートデータを追加することはできません。
全てのロケーションを同じにしておくのが確実

実験時の状況

Firestore：asia-southeast2
cloud storage バケット：asia-southeast2
asia-southeast2

カニさん（そららいど）

Bigqueryにcloud storageからデータを読み込むときのドキュメント：

カニさん（そららいど）

ハマりポイント

cloud functionのデプロイ時

環境変数のGCLOUD_PROJECTは手動で設定しなければならない（pythonやgolangだとデフォルトで設定されるらしいが、node.jsは違う）
実行関数名の指定を忘れないように。ドキュメントの手順にあるけど。
cloud functionを実行するサービスアカウント（PROJECT_ID@appspot.gserviceaccount.com）に対して、適切な権限を付与する。これもドキュメントに書かれてるけど。

カニさん（そららいど）

bigqueryではデータセット数、テーブル数ともに無制限