Open8
データエンジニアRadio
データエンジニアRadio
- 主催者 : さのちひろ | 外資ITプリセールスエンジニア
- ハッシュタグ :
#データエンジニアRadio
- 内容 : データエンジニアリング関連情報を聞ける。分散処理技術寄り
第5回 Iceberg について語ろう
- テーブルフォーマットのはやりは主に3つ
- Iceberg、databricksのdeltaレイク、Apacheフーディー(AWSぐらいしか商品にして売っていない、ワンハウスで商用)
- Icebergは後発、バージョン更新は頻繁にある
- 要はファイルシステム
- 昔話
- RDBにファイルの場所情報を入れて管理する→メタデータ
- hive meta store と対比
- スキーマを途中で変えられる
第0回 Cloudera 社員がマイアミで、真のストリーミングとは何かを語る
- ストリーミング
- データを受け取ったタイミングで処理する。インメモリで処理する。インフライト?
- カッパーアーキテクチャ、ラムダアーキテクチャ
- マイクロバッチとストリーミング
- バッチはストリーミングの一形態でしかないという考え方もある
- 例え話1(空港)
- 税関は一人読んできて質問して流す、団体の場合は、まとめてパスポートチャックする
- チェックするパスポートが1つなのか複数なのかの違いだけでバッチもストリーミングも本質的なコンセプトは同じ
- 家族単位はマイクロバッチ、団体はバッチ、一人一人はリアルタイムストリーミング
- 例え話2
- 入り口を通る時、その都度チェックするのは、リアルタイム、必ず1人チェック
- 期間で見るのはマイクロバッチ、1秒ごと見るのであればチェックするタイミングで2人いればその二人をチェックするのがマイクロバッチ
- 1秒ごとのように感覚を極めて短くするのがマイクロバッチ
- 10秒間隔とかがバッチ
- リアルタイム系でディスク処理はしない
追記
- BQならavroフォーマットがおすすめらしい
- ユースケースごとの使い分け
- 単純にクエリを最適化したいならORC
- ネストが深いデータ構造の場合やImpala使うならParquet
- カラム変更に強くしたいならAvro
- MapReduceジョブ最適化ならSequence
- 読み込みのパフォーマンスがどうでも良いならText
第6回 DE温故知新 あの技術の誕生秘話!
確かに、今はツールが溢れているな
- 最後は素のログに grep をかける作戦!
第1回 SMAPが解散したとき、サーバールームで起きていたこと
- 昔よく使っていたサーバー、dl380、dl360
- 時事ニュースがアクセス集中しやすい、芸能ニュースとか
- オートスケール大事
- sierはエレガントじゃない
- yahoo出身者が多い
第2回 ビッグデータの歴史
- ビックデータより人の歴史
- 金融業界のSEの話
- 意外とストリーミング技術は流行っていない、日本で
第3回 クラウドやらかし事件簿
- やらかしエピソード面白い
第4回 Trino本発売記念
- trinoはSQLエンジン