🐡

読み合せ会「実践的データ基盤への処方箋」第6回

2022/02/24に公開

過去の読み合せ会

なぜ読み合せ会?という形式をとって開催しているか?も記載してます。

使用する本

https://gihyo.jp/book/2021/978-4-297-12445-8
を使っています

読み合せ会

輪読会ではなく、読み合せ会!

2-1 一般的なデータ基盤の全体像と分散処理の必要性を理解する

(メンバーの意見をまとめます)

  • データ基盤を構成するシステコンポーネント
  • ウェアハウスは最も中心的なもの、アクセスコントロールの仕組みを整備
  • 大量のデータを処理するには分散処理が必要!
    • ただ、分散を意識しなくてもいいCloudDWHが出てきてるので、これもどうかと・・・
    • 分散処理を意識するクエリの書き方ってどういうもの・・・????
  • DWH製品上に「データレイク、データウェアハウス、データマート」がある・・・という用語の混乱・混用があるので、ここをしっかり理解することが必要
  • データレイクはそのまま格納
    • 個人情報を含む?その場合はとても大変

2-2 データソースごとに収集方法が違うこと、その難しさを理解する

  • データの収集はほんと難しい、一番苦労するところ!
  • いろんな経路を適切な方法を選ばないといけない
    • ここもだいぶセオリーができてきている
  • フェデレーション = DWH(BigQuery)とDB(MySQL)をつなげる・・・的な
    • フェデレーションの活用例は?データクリーンルームとかに使える?
    • 参照元の負荷の考慮が必要
  • Webスクレイピングって許可取れるもんだろうか・・・
  • 端末データの収集は、アプリ側の修正が必要。データ生成者の協力が必要
    • ここ数年でIoTのデータはほんと扱いやすくなった

Discussion