Open4時間前にコメント追加7

Parquet とは

hmarui66

https://parquet.apache.org

hmarui66

Motivation

hmarui66

圧縮された効率的な列指向データ表現の利点を Hadoop エコシステムのあらゆるプロジェクトで利用できるようにするために Parquet を作成

hmarui66

uses the record shredding and assembly algorithm described in the Dremel paper.

record shredding and assembly algorithm 気になる

hmarui66

Dremel 論文の fig.2,3を例に definition level と repeatition level を説明

hmarui66

message Document {
  required int64 DocId;
  optional group Links {
    repeated int64 Backward;
    repeated int64 Forward; }
  repeated group Name {
    repeated group Language {
      required string Code;
      optional string Country; }
    optional string Url; }}

の場合、以下のような列のリストができるが、definition & repeatition level が無いと、再構成できない、という話

DocId
Links.Backward
Links.Forward
Name.Language.Code
Name.Language.Country
Name.Url