Closed2
dbt x BigQuery (google cloud white paper)
2章 BigQueryについて
- 分析エンジン部分とストレージ層を分離することで柔軟性を最大化しており、高速なデータのクエリを実現している。
- Googleのadvanced infrastructure technologiesが使われている
- Dremel: 実行エンジン
- SQLを実行木に変換する
- Colossus: 分散ストレージ
- レプリケーション、リカバリ、分散管理をハンドルする
- Jupiter: ネットワーク
- Borg: クラスタマネージャ
- Dremel: 実行エンジン
5章 データアーキテクチャ
- Data Ingestion
- (dbt) Data Processing
- データ変換。cleaning, enrichment, aggregationなど。
- Data Visualization/Cunsumption
BQのプロジェクト構成
以下が推奨
- raw data project
- 単一のプロジェクト
- development project
- 単一のプロジェクト
- アクセス管理を簡単にするため
- production project
- departmentごとに分割する
- アクセス制御がしやすく、コスト管理もしやすい
dbtのプロジェクト構成
dbtのプロジェクトは、一つのソースリポジトリとDB接続にlinkする下記で構成される
- data transformation
- tests
- documentation
- configuratioin files
単一のプロジェクトでの管理 (モノリポ) が推奨
その他検討した方がいいこと
- 命名規則
- gitブランチ管理のルール
- pull request template
- CI利用
- オーケストレーションツール(google cloud composer、apache airflowなどdbtのjobを自動化・coordinateするツール)
このスクラップは2024/01/29にクローズされました