Closed2

dbt x BigQuery (google cloud white paper)

tomoyukiktomoyukik

https://services.google.com/fh/files/misc/dbt_bigquery_whitepaper.pdf

2章 BigQueryについて

  • 分析エンジン部分とストレージ層を分離することで柔軟性を最大化しており、高速なデータのクエリを実現している。
  • Googleのadvanced infrastructure technologiesが使われている
    • Dremel: 実行エンジン
      • SQLを実行木に変換する
    • Colossus: 分散ストレージ
      • レプリケーション、リカバリ、分散管理をハンドルする
    • Jupiter: ネットワーク
    • Borg: クラスタマネージャ
tomoyukiktomoyukik

5章 データアーキテクチャ

  • Data Ingestion
  • (dbt) Data Processing
    • データ変換。cleaning, enrichment, aggregationなど。
  • Data Visualization/Cunsumption

BQのプロジェクト構成

以下が推奨

  • raw data project
    • 単一のプロジェクト
  • development project
    • 単一のプロジェクト
    • アクセス管理を簡単にするため
  • production project
    • departmentごとに分割する
    • アクセス制御がしやすく、コスト管理もしやすい

dbtのプロジェクト構成

dbtのプロジェクトは、一つのソースリポジトリとDB接続にlinkする下記で構成される

  • data transformation
  • tests
  • documentation
  • configuratioin files

単一のプロジェクトでの管理 (モノリポ) が推奨

その他検討した方がいいこと

  • 命名規則
  • gitブランチ管理のルール
  • pull request template
  • CI利用
  • オーケストレーションツール(google cloud composer、apache airflowなどdbtのjobを自動化・coordinateするツール)
このスクラップは3ヶ月前にクローズされました