Open2025/02/24にコメント追加2

データエンジニアリング・マネジメント記事雑感

データマネジメント

データエンジニアリング

neko2wakai

不定期にデータエンジニアリング、マネジメント関連の記事を見つけたら読んで、整理したり、雑感を書いたりします。

修正コメント、雑感ツッコミ、記事追加要望、その他諸々歓迎です。

neko2wakai

https://zenn.dev/loglass/articles/822aabcf2666f3
概要
データレイクハウスの説明とハンズオン
Apacthe Parquet
Apacthe Iceberg
Apacthe

データレイクハウスの提案
DWHではスキーマ定義が前提となるため、取り込みの柔軟さに課題あり
データレイクで生データをそのまま格納して、必要に応じて格納することで一部緩和するも、整理不十分になる課題が残る
これらの問題に対応しようと提案されたのがデータレイクハウス
オブジェクトストレージ上でテーブル管理できるようにして、SQLベースで直接データにアクセスするイメージ

データレイクハウスの構成するレイヤー
Compute Engine：クエリを行うレイヤー
Table Format：ファイル群をテーブルとして管理するレイヤー
File Formar：保存したデータの形式を管理するレイヤー
選択肢になるのはスキーマを含むファイル形式：parquet, avro, ORC

Object Storge；大量ファイルの分散管理するレイヤー

ハンズオン
どこかでやる
Parquet, Iceberg, Trino, PostgreSQL構成

雑感
DWHのこれまでの使い方では、スキーマ定義前提となるため、定義更新への対応が後手になるあるある
また全てDWHにデータ乗っけるの辛くね？となるくらいには今後もデータ増えていきそう
それはそれとして定義って柔軟に変えていいのかは別で検討が必要な気がする
定義はカタログで分かればいいんだよ！の方向かも