😊
Datafoldを眺めてみた所感
データを扱う仕事をしていて度々気になるのが、SQLを修正した時に数値が意図した出力をしているかだと思います。そこでよさそうなツールDatafoldを見つけました。今回はDatafoldの公式及び触ってみた所感をつらつらと書いていこうと思います。
DatafoldはData Reliability Platformであり、データの信頼性を担保する製品となっています。
Datafoldの特徴
1. DATA DIFF
-
差分を確認したいデータが格納されているデータウェアハウスを選択し、接続名やデータウェアハウスのアカウント名など必須項目となっている箇所を埋めていきます。

-
比較したいテーブルを選択するとDatafoldが2テーブルで差異があるかを確認してくれます。もし差分がなければ画像のようにチェックマークがつきます

-
また比較した事象は履歴として残るため後から再度確認することも可能です

2. COLUMN-LEVEL LINAGE
- データウェアハウスに接続するだけでカラムレベルのでリネージが作成されるようです。(デモ写真ですみません)
3. ALERTS
定期的にデータの品質をチェックし、閾値を超えるとアラートを出すようにできるようです。

対応している製品群
- ほとんどの主要なDB・DWHに対応しています。またGitHubやdbtにも対応しており、よりいい感じのCICDが組めそうです。またBIツールにも対応しているものがあり、数値検証などがスムーズにできそうかなという期待が非常に大きいです。
まとめ
個人的にDatafoldは非常によさそうな製品だと思いました。プルリクエスト作成時に、dbt test + リンタ― + Datafold でSQL及びデータの品質をある程度担保してくれそうな気がしています。次の機会でプルリクエスト時にDatafoldが以前のSQLとデータの差分を算出してくれるパイプラインの記事でも書きたいなと思ています。
Discussion