Open24日前にコメント追加8

データエンジニアRadio

Yuichi 1ヶ月前に更新

データエンジニアRadio

主催者 : さのちひろ | 外資ITプリセールスエンジニア

https://x.com/IQ_Bocchi?s=20

ハッシュタグ : #データエンジニアRadio
内容 : データエンジニアリング関連情報を聞ける。分散処理技術寄り

Yuichi 1ヶ月前に更新

第5回 Iceberg について語ろう

テーブルフォーマットのはやりは主に３つ
- Iceberg、databricksのdeltaレイク、Apacheフーディー(AWSぐらいしか商品にして売っていない、ワンハウスで商用)
- Icebergは後発、バージョン更新は頻繁にある
- 要はファイルシステム
- 昔話
  - RDBにファイルの場所情報を入れて管理する→メタデータ

https://jp.cloudera.com/
https://otfsg-tokyo.connpass.com/
https://twitter.com/otfsg_tokyo

hive meta store と対比
スキーマを途中で変えられる

Yuichi 1ヶ月前に更新

第0回 Cloudera 社員がマイアミで、真のストリーミングとは何かを語る

ストリーミング
- データを受け取ったタイミングで処理する。インメモリで処理する。インフライト？
- カッパーアーキテクチャ、ラムダアーキテクチャ
- マイクロバッチとストリーミング
- バッチはストリーミングの一形態でしかないという考え方もある
- 例え話１（空港）
  - 税関は一人読んできて質問して流す、団体の場合は、まとめてパスポートチャックする
  - チェックするパスポートが１つなのか複数なのかの違いだけでバッチもストリーミングも本質的なコンセプトは同じ
  - 家族単位はマイクロバッチ、団体はバッチ、一人一人はリアルタイムストリーミング
- 例え話２
  - 入り口を通る時、その都度チェックするのは、リアルタイム、必ず１人チェック
  - 期間で見るのはマイクロバッチ、1秒ごと見るのであればチェックするタイミングで2人いればその二人をチェックするのがマイクロバッチ
    - 1秒ごとのように感覚を極めて短くするのがマイクロバッチ
  - 10秒間隔とかがバッチ
- リアルタイム系でディスク処理はしない

追記

BQならavroフォーマットがおすすめらしい

ユースケースごとの使い分け
- 単純にクエリを最適化したいならORC
- ネストが深いデータ構造の場合やImpala使うならParquet
- カラム変更に強くしたいならAvro
- MapReduceジョブ最適化ならSequence
- 読み込みのパフォーマンスがどうでも良いならText

Yuichi 25日前

第6回 DE温故知新あの技術の誕生秘話！

リクエストにお答えいただいて実現

いろんな先駆者の上に、現代いろいろなツールがあるんだと学んだ
確かに、今はツールが溢れているな

最後は素のログに grep をかける作戦！

Yuichi 24日前に更新

第1回 SMAPが解散したとき、サーバールームで起きていたこと

昔よく使っていたサーバー、dl380、dl360
時事ニュースがアクセス集中しやすい、芸能ニュースとか
オートスケール大事
sierはエレガントじゃない
yahoo出身者が多い

Yuichi 24日前に更新

第2回ビッグデータの歴史

ビックデータより人の歴史
金融業界のSEの話
意外とストリーミング技術は流行っていない、日本で

Yuichi 24日前

第3回クラウドやらかし事件簿

やらかしエピソード面白い

Yuichi 24日前

第4回 Trino本発売記念

trinoはSQLエンジン