🐼
Great Expectations入門(プロファイリング編)
Great Expectations入門(Pandas DataFrame編)の続きです。Great Expectationsの概要はそちらを見てください。
コンテキスト
- Great Expectationsには、V3 APIとV2 APIの二種類のAPIがあります
- V2ではgreat_expectations datasource profile DATASOURCE_NAMEというコマンドがあり、データのプロファイリングを行い、HTMLに出力できていました
- V3でのやり方がわからなかったため、そのメモです
やり方
Data Discoveryに軽く説明がありますが、V3でもプロファイリングを行うことができます。
具体的には以下の手順を踏みます。
- Pandas DataFrameをPandasDatasetに変換
- 「BasicDatasetProfiler」なるクラスを使い、プロファイリングを実行
- ProfilingResultsPageRendererとDefaultJinjaPageViewを使い、HTMLページに変換
(V2のようにCLIからプロファイリングする方法は不明)
やってみる
from great_expectations.profile.basic_dataset_profiler import BasicDatasetProfiler
from great_expectations.dataset.pandas_dataset import PandasDataset
from great_expectations.render.renderer import *
from great_expectations.render.view import DefaultJinjaPageView
basic_dataset_profiler = BasicDatasetProfiler()
df_ge = PandasDataset(df)
expectation_suite, profile_result = basic_dataset_profiler.profile(df_ge)
document_model = ProfilingResultsPageRenderer().render(profile_result)
Jupyter Notebookの場合(それ以外の場合は適当にファイルに書き出してください)
from IPython.display import HTML
HTML(DefaultJinjaPageView().render(document_model))
Discussion