✨

BigQuery 向けデータパイプラインサービス「Dataform」の基本的な使い方

2023/12/20に公開

こんにちは、Google CloudでDataAnalyticsを担当している山田です
本日はDataformの紹介をしたいと思います！
https://cloud.google.com/dataform?hl=ja

Dataformとは

BigQuery上でデータ変換を行う複雑なSQLワークフローを開発、テスト、バージョン管理、スケジュール設定することが出来ます。

Dataformのようなパイプライン管理ツールを使わない場合、SQLのバージョン管理や、テーブルAの後にテーブルBを作りたいといった依存管理などをどうするか考えなくてはいけません。

そのような課題を解決してくれるのがDataformになります。

Dataform自体の利用には料金がかからないというのも大きな特徴です！

Dataformは以下の４つの要素から成り立っています。

リポジトリ
- SQL ワークフローを構成する SQLX ファイルと JavaScript ファイルのコレクション、Dataform 構成ファイルとパッケージの格納場所。git と接続可能。
開発ワークスペース
- リポジトリ内ファイルの開発やテスト実行を行う。
リリース構成
- リポジトリ内ファイルのコンパイル設定。
ワークフロー構成
- SQL ワークフローアクションの実行設定。cron 形式で実行時間を指定可能。

Dataformの開発ではリポジトリの中にSQLXファイルというものを作成し、そこで書かれたSQLをマネージドに実行することが可能となります。

では実際にどのようにDataformを使い始めれば良いかみていきましょう。

DataformはBigQuery配下にありますので、こちらからまずDataformのトップページに行ってみたいと思います。

以下の画面からまずはリポジトリを作成します。

今後サービスアカウント経由でクエリが実行されるため、サービスアカウントに必要な権限をつける必要があります。
上記の設定の場合ですとDataformのデフォルトサービスアカウントに対して、roles/bigquery.userなどを付与する必要があります。

リポジトリが出来たらリポジトリの中に入りましょう。
まずは開発ワークスペースの作成を行います。

作成されたワークスペースの中に入ると「ワークスペースを初期化」というボタンが見えると思いますので、こちらを押します。
こちらの初期化によって、Dataformに最低限必要なファイルが作成されます。

以下のような６つのファイルが自動的に生成されます。

first / second _view.sqlx
- sqlxのサンプルファイル
.gitignore
- gitの管理対象外とするファイルを指定するためのファイル
dataform.json
- dataform全体の設定や定数などを指定できるファイル。データセット名などの指定が可能です。
package.json
- javascriptのパッケージを管理するためのファイル。追加したいパッケージがある場合こちらに記述します。
package-lock.json
- package.jsonに書かれたパッケージをインストールする際に自動的に作られるファイル。手動で修正することはありません。

設定ファイルの中身を見に行ってみましょう。

defaultSchema
- Dataform がアセットを作成する BigQuery データセット。初期値は”dataform”になるので、任意のデータセット名に変更してください。
assertionSchema
- Dataform がアサーション結果を含むビューを作成する BigQuery データセット。データ品質確認(アサーション)を行った際の結果などがおかれるデータセットになります。任意のデータセット名に変更してください。
warehouse
- bigquery に設定する必要があります。
defaultDatabase
- Dataform がアセットを作成する Google Cloud プロジェクト ID。プロジェクト名ではないことに注意です。
defaultLocation
- デフォルトの BigQuery データセットのロケーション。