🐡
読み合せ会「実践的データ基盤への処方箋」第6回
過去の読み合せ会
なぜ読み合せ会?という形式をとって開催しているか?も記載してます。
- 読み合せ会「実践的データ基盤への処方箋」第1回 ( はじめに、1-1, 1-2)
- 読み合せ会「実践的データ基盤への処方箋」第2回 (1-3, 1-4, 1-5)
- 読み合せ会「実践的データ基盤への処方箋」第3回 (1-6, 1-7, 1-8)
- 読み合せ会「実践的データ基盤への処方箋」第4回 (1-9, 1-10)
- 読み合せ会「実践的データ基盤への処方箋」第5回 (1-11, 1-12)
- 読み合せ会「実践的データ基盤への処方箋」第6回 (2-1, 2-2)
- 読み合せ会「実践的データ基盤への処方箋」第7回 (2-3, 2-4, 2-5)
使用する本
を使っています
読み合せ会
輪読会ではなく、読み合せ会!
2-1 一般的なデータ基盤の全体像と分散処理の必要性を理解する
(メンバーの意見をまとめます)
- データ基盤を構成するシステコンポーネント
- ウェアハウスは最も中心的なもの、アクセスコントロールの仕組みを整備
- 大量のデータを処理するには分散処理が必要!
- ただ、分散を意識しなくてもいいCloudDWHが出てきてるので、これもどうかと・・・
- 分散処理を意識するクエリの書き方ってどういうもの・・・????
- DWH製品上に「データレイク、データウェアハウス、データマート」がある・・・という用語の混乱・混用があるので、ここをしっかり理解することが必要
- データレイクはそのまま格納
- 個人情報を含む?その場合はとても大変
2-2 データソースごとに収集方法が違うこと、その難しさを理解する
- データの収集はほんと難しい、一番苦労するところ!
- いろんな経路を適切な方法を選ばないといけない
- ここもだいぶセオリーができてきている
- フェデレーション = DWH(BigQuery)とDB(MySQL)をつなげる・・・的な
- フェデレーションの活用例は?データクリーンルームとかに使える?
- 参照元の負荷の考慮が必要
- Webスクレイピングって許可取れるもんだろうか・・・
- 端末データの収集は、アプリ側の修正が必要。データ生成者の協力が必要
- ここ数年でIoTのデータはほんと扱いやすくなった
Discussion