データエンジニアリング Scraps

y.nakada@raksul

E-Stat 国政情報と国土数値情報、Snowflake 無料共有っていいな
https://truestar.co.jp/prepper/

y.nakada@raksul

RESAS(地域経済分析システム) のデータも Snowflake とか BigQueryで公開してくれないかな
https://resas.go.jp/

y.nakada@raksul

指標の一元化、スタースキーマとワイドテーブルの併用など、似たような悩み抱えているのでとても参考になる。

y.nakada@raksul

今後は BigLake + Dataplex というかたちになっていくのかな？

y.nakada@raksul

分析系データモデリングの歴史がコンパクトにまとまってて良い

y.nakada@raksul

re_data という dbt と連携してデータの異常がないかモニタリングするツール。
なかなか良さげ。dbt にこういう機能組み込まれてきそうな気もするんで、採用はもう少し様子見かな。

y.nakada@raksul

open-metadata 0.9.0 でメトリクステストとテスト結果保存、用語集機能が対応された。
成長スピード早いな。そろそろトライアルしてみたい。

y.nakada@raksul

利用実績に基づく仮想外部キーの作成、カーディナリティの推定するのはイイ！
OpemMetadata も同様にERD管理や、ERD生成機能がついてくれると嬉しいが生成は難しいか？dbtdocs は覚えておこう。

Dataedo

月4,300円/ユーザー
ERDも管理できる

dbdocs

ERD生成
今は無料だが今後有償になる模様

y.nakada@raksul

dbt と連携した ER Maps というツールつくってる人もいるな

y.nakada@raksul

データ分析基盤のオブザーバビリティ整理してみようかな

y.nakada@raksul

BigQuery の search index と SEARCH 関数、長文テキスト保存しているところに適用してみようかな

y.nakada@raksul

Cloud Run と Croud Run jobs の関係は、 ECS Task と AWS Batch みたいなもんなのかな。
重めのバッチ処理ができたら使うことになるかもしれないな。

y.nakada@raksul

lightdash 進化したら導入ありかもな
https://www.lightdash.com/

dbt の schema.yml に dimension と metrics 定義（Looker ML書くよりいい！）
OSS版がある

以下がRedash相当になれば、Redashから乗り換え検討しようかな

ビジュアライズ機能
Slack通知
アラート
SQLを直接書ける（SQL Runner から Chart 検討してるっぽい）

y.nakada@raksul

Data Vault を dbtvalut BigQuery でやるときの入門

y.nakada@raksul

文字列の類似性判定するBigQuery UDF。レーベンシュタイン距離をJavascriptで計算してる。タイプミス検出とかに使えそうだな。

y.nakada@raksul

elementary というツール、dbt のテスト結果の可視化と、異常検知機能があって良さげ
Z-score 使っったやつですね。
https://docs.elementary-data.com/
異常検知は Z-score使ったものか

データ品質だけでなく、業務的な意味でも使えるかも

y.nakada@raksul

snowflake なら　datameer も良さそう
https://www.datameer.com/

y.nakada@raksul

データモデリングについてすごい良くまとまってる

y.nakada@raksul

BigQueryでテーブル変更履歴が取れるようになるのか。
Slowly Changing Dimensions とかに使えるかもだけど、更新は残らないのか。
常にDelete -> Insert とかで行けるかもしてないが、Deleteはコスト高いから微妙かも。

y.nakada@raksul

BigQueryで冪等性の担保の仕方がまとまってる。

y.nakada@raksul

GCP の Workforce Identity で AADやOkta連携できるのか
まだ pre-GAですが。

y.nakada@raksul

Community contributed UDFがBigQuery上のbigquery-public-data.persistent_udfs データセットで利用可能になったのか

y.nakada@raksul

デメンショナルモデリングをデータモデルからSQLでしてて面白い

y.nakada@raksul

予期しないスキーマの変更でのデータ品質の課題はあるあるなので、データコントラクトが広まっていくかもな。