Open8

データエンジニアRadio

YuichiYuichi

データエンジニアRadio

  • 主催者 : さのちひろ | 外資ITプリセールスエンジニア

https://x.com/IQ_Bocchi?s=20

  • ハッシュタグ : #データエンジニアRadio
  • 内容 : データエンジニアリング関連情報を聞ける。分散処理技術寄り

https://qiita.com/IQ_Bocchi/items/d38db751388b10870ab2?utm_campaign=post_article&utm_medium=twitter&utm_source=twitter_share

YuichiYuichi

第5回 Iceberg について語ろう

https://twitter.com/i/spaces/1OwxWYAjMRDGQ

  • テーブルフォーマットのはやりは主に3つ
    • Iceberg、databricksのdeltaレイク、Apacheフーディー(AWSぐらいしか商品にして売っていない、ワンハウスで商用)
    • Icebergは後発、バージョン更新は頻繁にある
    • 要はファイルシステム
    • 昔話
      • RDBにファイルの場所情報を入れて管理する→メタデータ

https://jp.cloudera.com/
https://otfsg-tokyo.connpass.com/
https://twitter.com/otfsg_tokyo

  • hive meta store と対比
  • スキーマを途中で変えられる
YuichiYuichi

第0回 Cloudera 社員がマイアミで、真のストリーミングとは何かを語る

https://twitter.com/i/spaces/1djGXNXgjVexZ

  • ストリーミング
    • データを受け取ったタイミングで処理する。インメモリで処理する。インフライト?
    • カッパーアーキテクチャ、ラムダアーキテクチャ
    • マイクロバッチとストリーミング
    • バッチはストリーミングの一形態でしかないという考え方もある
    • 例え話1(空港)
      • 税関は一人読んできて質問して流す、団体の場合は、まとめてパスポートチャックする
      • チェックするパスポートが1つなのか複数なのかの違いだけでバッチもストリーミングも本質的なコンセプトは同じ
      • 家族単位はマイクロバッチ、団体はバッチ、一人一人はリアルタイムストリーミング
    • 例え話2
      • 入り口を通る時、その都度チェックするのは、リアルタイム、必ず1人チェック
      • 期間で見るのはマイクロバッチ、1秒ごと見るのであればチェックするタイミングで2人いればその二人をチェックするのがマイクロバッチ
        • 1秒ごとのように感覚を極めて短くするのがマイクロバッチ
      • 10秒間隔とかがバッチ
    • リアルタイム系でディスク処理はしない

https://qiita.com/akuroda/items/fd3efe9810e5fad9aec5
https://qiita.com/lethe2211/items/a180373c5c25839bb470

追記

  • BQならavroフォーマットがおすすめらしい

https://www.slideshare.net/seiyamizuno35/serialization-systems

  • ユースケースごとの使い分け
    • 単純にクエリを最適化したいならORC
    • ネストが深いデータ構造の場合やImpala使うならParquet
    • カラム変更に強くしたいならAvro
    • MapReduceジョブ最適化ならSequence
    • 読み込みのパフォーマンスがどうでも良いならText

https://kakakazuma.hatenablog.com/entry/2016/10/17/090000

YuichiYuichi

第1回 SMAPが解散したとき、サーバールームで起きていたこと

https://twitter.com/i/spaces/1vOxwjRQVOgJB

  • 昔よく使っていたサーバー、dl380、dl360
  • 時事ニュースがアクセス集中しやすい、芸能ニュースとか
  • オートスケール大事
  • sierはエレガントじゃない
  • yahoo出身者が多い