Open7
Parquet とは
Motivation
圧縮された効率的な列指向データ表現の利点を Hadoop エコシステムのあらゆるプロジェクトで利用できるようにするために Parquet を作成
uses the record shredding and assembly algorithm described in the Dremel paper.
record shredding and assembly algorithm 気になる
Dremel 論文の fig.2,3を例に definition level と repeatition level を説明
message Document {
required int64 DocId;
optional group Links {
repeated int64 Backward;
repeated int64 Forward; }
repeated group Name {
repeated group Language {
required string Code;
optional string Country; }
optional string Url; }}
の場合、以下のような列のリストができるが、definition & repeatition level が無いと、再構成できない、という話
DocId
Links.Backward
Links.Forward
Name.Language.Code
Name.Language.Country
Name.Url