Open7

Parquet とは

hmarui66hmarui66
hmarui66hmarui66

圧縮された効率的な列指向データ表現の利点を Hadoop エコシステムのあらゆるプロジェクトで利用できるようにするために Parquet を作成

hmarui66hmarui66

uses the record shredding and assembly algorithm described in the Dremel paper.

record shredding and assembly algorithm 気になる

hmarui66hmarui66
message Document {
  required int64 DocId;
  optional group Links {
    repeated int64 Backward;
    repeated int64 Forward; }
  repeated group Name {
    repeated group Language {
      required string Code;
      optional string Country; }
    optional string Url; }}

の場合、以下のような列のリストができるが、definition & repeatition level が無いと、再構成できない、という話

DocId
Links.Backward
Links.Forward
Name.Language.Code
Name.Language.Country
Name.Url