🦔

読み合せ会「実践的データ基盤への処方箋」第二回

2022/01/27に公開

https://zenn.dev/gak_t12/articles/032d51aa0fff6e

読み合せ回

1-3 データが生じる現場を把握して業務改善につなげる

  • **ERD(実体関連図)**を書こう。そして読み込もう、そして深く深く把握しよう
    • クライアント(データ生成者)への質問表を共有する運用を回すと良さげ
  • データの中身(プロファイリング)も重要。それをER図にメモ書きするとかはとても重要
  • データソースで品質を担保することが何より重要
  • 業務レイヤ重要
  • データ活用者vsデータ生成者の利害対立、このコミュニケーションはホント大切。うまくインセンティブ設定しないとね(組織論だ)
  • データ生成については、既存の業務フローを変えずいかにデータを取得するかが重要。もしくは簡単に、ついでに取れる、データ収集のために負担を増やさずしたいところ

(自分の所感)
自分もまずはER図を作り、プロファイリングをしてコメントを残し、質問表をまとめるところからやります。
ただ、ER図というよりは、データパイプライン図的なものの要素も入れて、ER図っぽいものをかいてますね

1-4 データソースの整備ではマスタ・共通ID・履歴の3つを担保する

  • データ整備をしないと、データサイエンティストを雇っても何もできない!高度なアルゴリズムを適用することもできない! → まずは、データ整備を!!!!
  • イミュータブルデータモデルはDWHには特に良い気がする。追記のみで、基本削除やアップデートはしない。近年、クラウドストレージ料金がバク安なので容量をそこまで気にかけなくても良くなってきたのが大きいと思う
  • マスタ履歴は基本残す(スナップショットをとっておく)
  • マスタデータや共通IDの整備はデータ活用者としては優先順位を高くしてほしいが、企業のビジネスインパクトを考えると後回しにされるケースが往々にしてある

(自分の所感)
いま関わるのが小売様の案件が多くPOSを扱うことが多いですが、そのなかの「jan_code」の日本共通がホントほしい!切実に!!売ってるのは知ってるけど!!!!!!!!

1-5 データレイク層の一箇所にデータのソースのコピーを集約する

  • データレイクは「何も加工していないただのコピーである」事が何より重要
  • データを集約することで部署横断のデータ活用が楽になる → 実際に起きたこと
  • コスト優先で加工したものを取り込むと、なにか起きたときの切り分けコストがすごくかかる、最初からそのままコピーのほうが良い
  • 取り込む際は「取り込むことを最優先」 日時型のデータも一旦「文字列」として取り込むと、取り込みスキップが起きない
  • データレイク層の作成に関してはビジネス側の意図は(DWH,データマートなど下流に比べ)入らないのでは、という印象
  • データを集約することは必要だが「個人情報」に関係するところが難しく、よく考えていかなければならないかも

(自分の所感)
データレイク層に取り込むときは、「取り込みに成功する、漏れなく」を重視してます。

  • 基本は文字列型(IDなど数値で構成されるものも、文字列型)
  • 売上、数量のデータは、数値型
  • 日時型も一旦は文字列型で取り込む

シリーズ

なぜ読み合せ会?という形式をとって開催しているか?も記載してます。

Discussion