🦔

読み合せ会「実践的データ基盤への処方箋」第二回

2022/01/27に公開

読み合せ回

**ERD（実体関連図）**を書こう。そして読み込もう、そして深く深く把握しよう
- クライアント（データ生成者）への質問表を共有する運用を回すと良さげ
データの中身（プロファイリング）も重要。それをER図にメモ書きするとかはとても重要
データソースで品質を担保することが何より重要
業務レイヤ重要
データ活用者vsデータ生成者の利害対立、このコミュニケーションはホント大切。うまくインセンティブ設定しないとね（組織論だ）
データ生成については、既存の業務フローを変えずいかにデータを取得するかが重要。もしくは簡単に、ついでに取れる、データ収集のために負担を増やさずしたいところ

（自分の所感）
自分もまずはER図を作り、プロファイリングをしてコメントを残し、質問表をまとめるところからやります。
ただ、ER図というよりは、データパイプライン図的なものの要素も入れて、ER図っぽいものをかいてますね

データ整備をしないと、データサイエンティストを雇っても何もできない！高度なアルゴリズムを適用することもできない！　→　まずは、データ整備を！！！！
イミュータブルデータモデルはDWHには特に良い気がする。追記のみで、基本削除やアップデートはしない。近年、クラウドストレージ料金がバク安なので容量をそこまで気にかけなくても良くなってきたのが大きいと思う
マスタ履歴は基本残す（スナップショットをとっておく）
マスタデータや共通IDの整備はデータ活用者としては優先順位を高くしてほしいが、企業のビジネスインパクトを考えると後回しにされるケースが往々にしてある

（自分の所感）
いま関わるのが小売様の案件が多くPOSを扱うことが多いですが、そのなかの「jan_code」の日本共通がホントほしい！切実に！！売ってるのは知ってるけど！！！！！！！！

（自分の所感）
データレイク層に取り込むときは、「取り込みに成功する、漏れなく」を重視してます。

なぜ読み合せ会？という形式をとって開催しているか？も記載してます。

読み合せ会「実践的データ基盤への処方箋」第1回　(　はじめに、1-1, 1-2）
読み合せ会「実践的データ基盤への処方箋」第2回　（1-3, 1-4, 1-5)
読み合せ会「実践的データ基盤への処方箋」第3回　(1-6, 1-7, 1-8)
読み合せ会「実践的データ基盤への処方箋」第4回　(1-9, 1-10)
読み合せ会「実践的データ基盤への処方箋」第5回　(1-11, 1-12)
読み合せ会「実践的データ基盤への処方箋」第6回　(2-1, 2-2)
読み合せ会「実践的データ基盤への処方箋」第7回　(2-3, 2-4, 2-5)