Open2
データエンジニアリング・マネジメント記事雑感

不定期にデータエンジニアリング、マネジメント関連の記事を見つけたら読んで、整理したり、雑感を書いたりします。
修正コメント、雑感ツッコミ、記事追加要望、その他諸々歓迎です。

- 概要
- データレイクハウスの説明とハンズオン
- Apacthe Parquet
- Apacthe Iceberg
- Apacthe
- データレイクハウスの提案
- DWHではスキーマ定義が前提となるため、取り込みの柔軟さに課題あり
- データレイクで生データをそのまま格納して、必要に応じて格納することで一部緩和するも、整理不十分になる課題が残る
- これらの問題に対応しようと提案されたのがデータレイクハウス
- オブジェクトストレージ上でテーブル管理できるようにして、SQLベースで直接データにアクセスするイメージ
- データレイクハウスの構成するレイヤー
- Compute Engine:クエリを行うレイヤー
- Table Format:ファイル群をテーブルとして管理するレイヤー
- File Formar:保存したデータの形式を管理するレイヤー
- 選択肢になるのはスキーマを含むファイル形式:parquet, avro, ORC
- Object Storge;大量ファイルの分散管理するレイヤー
- ハンズオン
- どこかでやる
- Parquet, Iceberg, Trino, PostgreSQL構成
雑感
- DWHのこれまでの使い方では、スキーマ定義前提となるため、定義更新への対応が後手になるあるある
- また全てDWHにデータ乗っけるの辛くね?となるくらいには今後もデータ増えていきそう
- それはそれとして定義って柔軟に変えていいのかは別で検討が必要な気がする
- 定義はカタログで分かればいいんだよ!の方向かも