データエンジニアリング Scraps
E-Stat 国政情報 と 国土数値情報、Snowflake 無料共有っていいな
RESAS(地域経済分析システム) のデータも Snowflake とか BigQueryで公開してくれないかな
指標の一元化、スタースキーマとワイドテーブルの併用など、似たような悩み抱えているのでとても参考になる。
今後は BigLake + Dataplex というかたちになっていくのかな?
分析系データモデリングの歴史がコンパクトにまとまってて良い
re_data という dbt と連携して データの異常がないかモニタリングするツール。
なかなか良さげ。dbt にこういう機能組み込まれてきそうな気もするんで、採用はもう少し様子見かな。
open-metadata 0.9.0 で メトリクステストとテスト結果保存、用語集機能が対応された。
成長スピード早いな。そろそろトライアルしてみたい。
dbt と連携した ER Maps というツールつくってる人もいるな
データ分析基盤のオブザーバビリティ整理してみようかな
BigQuery の search index と SEARCH 関数 、長文テキスト保存しているところに適用してみようかな
Cloud Run と Croud Run jobs の関係は、 ECS Task と AWS Batch みたいなもんなのかな。
重めのバッチ処理ができたら使うことになるかもしれないな。
lightdash 進化したら導入ありかもな
- dbt の schema.yml に dimension と metrics 定義(Looker ML書くよりいい!)
- OSS版がある
以下がRedash相当になれば、Redashから乗り換え検討しようかな
- ビジュアライズ機能
- Slack通知
- アラート
- SQLを直接書ける(SQL Runner から Chart 検討してるっぽい)
Data Vault を dbtvalut BigQuery でやるときの入門
文字列の類似性判定するBigQuery UDF。レーベンシュタイン距離をJavascriptで計算してる。タイプミス検出とかに使えそうだな。
elementary というツール、dbt のテスト結果の可視化と、異常検知機能があって良さげ
Z-score 使っったやつですね。
異常検知は Z-score使ったものか
データ品質だけでなく、業務的な意味でも使えるかも
snowflake なら datameer も良さそう
データモデリングについてすごい良くまとまってる
BigQueryでテーブル変更履歴が取れるようになるのか。
Slowly Changing Dimensions とかに使えるかもだけど、更新は残らないのか。
常にDelete -> Insert とかで行けるかもしてないが、Deleteはコスト高いから微妙かも。
BigQueryで冪等性の担保の仕方がまとまってる。
GCP の Workforce Identity で AADやOkta連携できるのか
まだ pre-GAですが。
Community contributed UDFがBigQuery上のbigquery-public-data.persistent_udfs データセットで利用可能になったのか
デメンショナルモデリングをデータモデルからSQLでしてて面白い
予期しないスキーマの変更でのデータ品質の課題はあるあるなので、データコントラクトが広まっていくかもな。