🕌

読み合せ会「実践的データ基盤への処方箋」第7回

2022/03/08に公開

過去の読み合せ会

なぜ読み合せ会?という形式をとって開催しているか?も記載してます。

使用する本

https://gihyo.jp/book/2021/978-4-297-12445-8
を使っています

読み合せ会

輪読会ではなく、読み合せ会!

2-3 ファイルを収集する場合は最適なデータフォーマットを選択する

(メンバーの意見をまとめます)

  • ファイル配置完了の「通知」 を Slack通知といった人に対するもの・・・という誤解が多かった ※非エンジニアはほぼみんな
  • データの量や構造を厳格にするか?でファイルフォーマットを検討する
  • AvroやParquetは中身が見れないので、アナリストには厳しいフォーマット。ただ、アナリスト用にCSVなどをだし、取り込む際にはそれを更にAvroやParquetへ変換して使う方法もあり
  • フォーマットなどが変わることが多い、その検知はとても重要
  • Parquetは列志向ファイル なので列志向DWHに相性がいい(DataBricksやSnowflake)

2-4 APIのデータ収集では有効期限や回数制限に気をつける

(メンバーの意見をまとめます)

  • APIを利用する際は、仕様をよく理解し、リリースノートも確認する
  • Metaはほんと良く後方互換なくAPIを変更して、事故になることが多い・・・
  • PoCではよかったのに、いざ本番になると回数や行数などで不具合が発生することがホント多い
  • APIキーは更新することを前提に実装しておく必要がある ※ハードコーディングはNG!
  • APIの制限としては回数もそうですが一度に取得できるレコード数、カラム数なども制限あるので注意
  • APIキーの更新期限のアラートってどうしたらいい?いきなりだめになるのはツライ・・・

2-5 SQLを利用したデータベース収集ではデータベースへの負荷を意識する

(メンバーの意見をまとめます)

  • 手間的には 全洗い替え > 差分更新 > 並列
  • SQLでやる場合も、データソースのDBに高負荷をかけないように気をつける
  • 分散はあまり意識しなくてもいいプロダクトが増えている
  • 作成時は良くても時間が立つと劣化するので都度メンテナンスが必要

Discussion