🙌

【Dataplex】データ品質 / Auto Data Quality 使ってみた

2023/07/06に公開

DataplexのAuto Data Qualityを使用することでBigQueryのテーブルに対してデータ品質チェックを行うことができます。
実際にデータ分析や機械学習にデータを食わせたいときなどにデータ品質チェックを毎回行うのは結構工数がかかるかと思いますが、この機能を使用すると自動でデータの品質チェックを行ってくれます。

早速どんなものなかを使ってみましょう!

スタート!

Dataplexのコンソールメニューから「データ品質スキャンを作成」から実行することが可能です

スキャンの定義を設定

基本設定

任意のスキャン名とidを設定し、データ品質チェックを行いたいテーブルを指定します。
品質チェックを行いたい行のフィルタリングをWhere句等で実施することも可能です

スケジュール設定

品質チェックをスケジューリングすることも可能です!
定期的に更新されるデータに対して品質チェックしたい場合はすごく便利ですね!

データ品質ルールの設定

データ品質を実際にどのようにチェックするのか、ルールをここでは定義します。
カスタムでルールを作成することも可能ですが、今回は推奨事項に沿ってルールの作成をしていきます!

ルールの選択

テーブルの列ごとに
「Null Check」
「Row Condition Check」
「Range Checnk」
「Statistic Range Check」
「Value Set Check」
などのルールが設定されていることがわかります。このルールに従ってチェックが行われ、満たせていないものに関してはエラーが出力されます。

スキャンの実行

ラベルは今回はデモなのでそのままで大丈夫です!
スキャンの実行をクリックしてみましょう!

スキャンの確認

スキャンが完了すると以下のような画面で報告してくれます。
いくつかのルールで品質チェックに引っかかったようです。(エラーを出してくれるのは正常な動きです。むしろそのための機能です!)

詳細をドリルダウンしてみるといくつかの列に対してのルールでエラーを出してくれています。

まとめ

この品質チェックを行うことで、例えばNullがある列からNullを排除したり、本来マイナスがあってはいけない行を排除するなどデータクレンジングする上でも役に立ちます!

Discussion