【Dataplex】データ品質 / Auto Data Quality 使ってみた
DataplexのAuto Data Qualityを使用することでBigQueryのテーブルに対してデータ品質チェックを行うことができます。
実際にデータ分析や機械学習にデータを食わせたいときなどにデータ品質チェックを毎回行うのは結構工数がかかるかと思いますが、この機能を使用すると自動でデータの品質チェックを行ってくれます。
早速どんなものなかを使ってみましょう!
スタート!
Dataplexのコンソールメニューから「データ品質スキャンを作成」から実行することが可能です
スキャンの定義を設定
基本設定
任意のスキャン名とidを設定し、データ品質チェックを行いたいテーブルを指定します。
品質チェックを行いたい行のフィルタリングをWhere句等で実施することも可能です
スケジュール設定
品質チェックをスケジューリングすることも可能です!
定期的に更新されるデータに対して品質チェックしたい場合はすごく便利ですね!
データ品質ルールの設定
データ品質を実際にどのようにチェックするのか、ルールをここでは定義します。
カスタムでルールを作成することも可能ですが、今回は推奨事項に沿ってルールの作成をしていきます!
ルールの選択
テーブルの列ごとに
「Null Check」
「Row Condition Check」
「Range Checnk」
「Statistic Range Check」
「Value Set Check」
などのルールが設定されていることがわかります。このルールに従ってチェックが行われ、満たせていないものに関してはエラーが出力されます。
スキャンの実行
ラベルは今回はデモなのでそのままで大丈夫です!
スキャンの実行をクリックしてみましょう!
スキャンの確認
スキャンが完了すると以下のような画面で報告してくれます。
いくつかのルールで品質チェックに引っかかったようです。(エラーを出してくれるのは正常な動きです。むしろそのための機能です!)
詳細をドリルダウンしてみるといくつかの列に対してのルールでエラーを出してくれています。
まとめ
この品質チェックを行うことで、例えばNullがある列からNullを排除したり、本来マイナスがあってはいけない行を排除するなどデータクレンジングする上でも役に立ちます!
Discussion