Open6

Enterprise Data Warehouseを考える時の思考ログ

tenajimatenajima
  • データマネジメントプロセスのCenter of Excellenceであること
  • データモデリングプロジェクトチームに指示とサポートを提供し、モデリング開発プロセスに従ってアーキテクチャを開発し、dimensional modeling設計を実装すること
  • ERDをレビューし、データモデルがすべてのエンタープライズdimensional modelingガイドラインと命名基準に準拠していることを確認すること
  • EDMの fact/dim/martの検索性を高め、対象分野横断的な分析を可能にするため、Conformance matrixの最新版を更新/維持すること
  • データ・イネーブルメントを提供し、データ・モデルに関する必要なトレーニングをユーザーに提供することで、セルフサービスBIおよび分析機能をサポートすること
  • ビジネス・ユーザー向けに、複数のデータ・ソースにまたがるデータ資産の詳細を、使いやすい形に整理して統合したデータ・カタログのコンテンツの追加に継続的に取り組むこと
  • ビジネスおよび技術者向けの様々なトピックに関するガイドハンドブックページの作成

https://about.gitlab.com/handbook/business-technology/data-team/organization/enterprise-data/

tenajimatenajima
  • Data Quality
    • Trusted Data Framework(?)のサポート
    • 包括的で正確なデータをユーザーに公開
    • データの観測可能性
  • Self-Service BI/End User support
    • 異なる領域における新規のfact, conformed dimension, data martの作成
    • データ資産を裏付ける適切な文書を追加する
    • 分析および報告のためのEDMにおけるfact/dim/martに関するトレーニングの提供
tenajimatenajima
  1. Data Modeling & Design
  • データモデリング標準と命名規則の定義
  • スキーマの更新 - Common_mart、Common_mart_product、新しいrpt(report)スキーマ
  • サロゲートキーとナチュラルキーの比較 - 既存モデルのリファクタリング
  • ERDレビュー
  • 毎月のEDMワークショップ
  • dimensionとfactの最小単位の構築(Enterprise Data Warehouseに翻訳および構築)
  • 翻訳および最終データに使用されるロジックに関するビジネス承認
  • ルートソースからのモデリングを確認する
  • AtomicとAggregatesのデータをマッチングさせるため、最下位グレインからAggregatedデータを構築する。
  • アトミックデータと集計データにすべてのデータを含め、必要に応じて分析やレポート作成時にフィルタリングできるようにする。
  • 特定のレポーティングのニーズに合わせてフィルタリングできる、特定のレポーティングデータを構築する。
tenajimatenajima
  1. Documenting Single Source of Truth
  • DBTモデルとハンドブックのページで、ユーザーにとって正確で最適な使い方ができる
  • すべてのビジネス・データにおいて、ソースから公開まで明確に接続する。
  1. Deprecation of Legacy models
  2. Metadata Management & Content Discovery
  • 領域全体で使用されているfact、dimension、martの現状を反映するために、conformance matrixを更新する
tenajimatenajima

Future State of Enterprise Data

Vision

ビジネス上の意思決定を最適化しながら、使いやすさ、コラボレーションのしやすさ、メンテナンスのしやすさを提供するために、エンタープライズ・データウェアハウス全体で一貫性のあるシンプルで包括的なデータを持つこと

そのためにEnterprise Data Teamが取り組んでいくこと

  • 現在のデータの状態からSSOTで、標準化され、ガバナンスがきいた、シンプルで包括的かつレイヤー化されて使いやすいEnterprise Data Structureを加速させること
  • より効率的な分析のためのデータ管理プロセスを確立し、サポートする。
  • データの依存関係を簡単に特定し、誰が各データソースを使用しているかを理解し、関連するテーブルにアクセスしやすくするために、適切に管理されたデータ系統を構築する。
  • 正確な分析と報告を目的とした、高品質で信頼性の高い、一元化された信頼できるデータモデルを提供する
  • データの安全性を確保し、対象分野の役割を明確に定義してコンプライアンスを遵守する
  • 複数のソースのデータを統合し、効率を向上
  • 統合データカタログを使用して、部門を超えたチーム内でデータを一元的に共有し、管理する
  • スケーラブルで堅牢な一貫したデータアーキテクチャを持つこと