Open21

Youtube動画視聴ログ

ピン留めされたアイテム
YuichiYuichi

Data Engineering Study

https://www.youtube.com/@dataengineeringstudy6866/streams
2024/03/12 : 6まで視聴済み

YuichiYuichi

Data Engineering Study #23 Data orchestration 特集

https://www.youtube.com/watch?v=RWM26j87HAs

  • ワークフローオーケスレーションはモダンデータ時代に入っている
  • モダンデータスタックとは
    • 従来のデータスタックのの課題を解決しようとする技術トレンドの総称
  • DAGのメリット
    • 実行順序を事前に決定できるので、ワークフローの依存関係をコードで表現できる
    • 最後のタスクが成功=ワークフローが成功なので、タスクの状態管理がやりやすい
    • https://github.com/meirwah/awesome-workflow-engines
      • 100個のワークツールがまとまっている
  • 使いやすいとは
    • 技術・人・カネの制約の中でプロダクト課題を解決できる最も扱いやすいもの
  • 技術選定は、期待することをまとめる
  • プリフェクトは脆弱性があって、digdagに戻っている_サイバーエージェント
  • fundamental of data engineerringで読みながら構築すると、回避できる問題がいくつかかる
    • 世の中はバグだらけ、システムもバグるよw
  • ダグスター
    • ブランチデプロイ機能で、本番環境に近い環境でテストできる
    • python の習熟度がかなり必要
    • 自前サーバー、ハウブリット、サーバレスを選択できる
    • airflowからダグスターへの移行はdbtの導入したいというモチベ、dbtとダグスターの組み合わせが良い
YuichiYuichi

「Redshift最新アップデートと活用事例」Data Engineering Study #7

https://www.youtube.com/watch?v=j7t_h23WNN8

  • シェアードナッシング
    • 複数のコンピュータで処理を分散して実行する分散システムの構成法の一つで、システムを構成するコンピュータ間で何も共有しない方式のこと。
  • MPP、Massively Parallel Processingアーキテクチャ
    • 簡単に言うと、MPP データベースは、データと処理能力が複数の異なるノード(サーバー)間で単一のリーダーノードと単一または複数のコンピュートノードで分割された、データベースまたはデータウェアハウスの一種です。- MPPでは、リーダー(あなた)はリーダーノードと呼ばれ、他の全員に指示を出し、最終的な集計を行います。そして図書館の従業員、つまりあなたのヘルパーは、コンピュートノードと呼ばれ、データを全て処理し、クエリを実行して、単語を数えます。
  • Federated Query複数のDBをまたがってクエリする
  • マテリアライズドビュー
    • データの実体を持ったビューのことです。
  • やっぱりAWSで構築しているのでレッドシフトを採用するケースが多い
  • SUPERというデータ型、半構造化データをサポート
    https://blog.trocco.io/category/data-engineering-news
  • バルクエクスポートが一番価値が高い
YuichiYuichi

Data Engineering Study #22 5社のデータエンジニアが振り返る2023

https://www.youtube.com/watch?v=LkH7OzAmLrg

  • 生データをリアルまたはニアリアルで取り込む
    • 早くて安いってのがいいね、運用コストはどうなんだろう
    • 社員全員アナリスト計画いいね
  • 生成AIでダッシュボードが作成されるのはインパクトあるね
  • データ人材のキャリア
    • hubspot(analytics investment)、gitlab(data champion)
  • データディスカバリーは、データを一元化し、一箇所で管理するプロセスです。ウェアハウスやBIツール、ETLレイヤーの上に位置する形となり、データのアグリゲーター(集める、合計する、集計するもの)として機能します。データディスカバリーツールを使うことで、サイロ化されたツールからメタデータを抽出し、データ利用者が異なるツールにジャンプすることなく、このメタデータを検索できるようになります。

https://dev.classmethod.jp/articles/modern-data-stack-categories-overview-advent-calendar-19-data-discovery/

  • Dataplex
    • リネージの自動生成とよく使っているテーブルを上位表示してくれる
    • dbt docsだけでは物足りない
    • IAMの再設定が不要(他のSaasだと、、、)
  • dbt-osmoisをgithubアクションズで動作させている
  • データパイプラインを水道で例える
    • ダム、浄水場、蛇口
  • エクセルは人が読みやすいく機械が読みにくい形になっていることが多い
  • データにおける便益を人々に届けることを優先する→各省庁に対して
  • プラットフォームエンジニアリングで重視する考え方
    • 基盤のユーザー(開発者)を顧客に見立てたプロダクションマネジメントのアプローチを取るPdMをおく

https://datadeveloperplatform.org/
https://zenn.dev/dataheroes/articles/2c102a3b211cd4

YuichiYuichi

dbt Tokyo

dbt Tokyo Meetupのアーカイブが掲載されている
https://www.youtube.com/@dbttokyo1169

YuichiYuichi

dbt Tokyo Meetup #3

https://www.youtube.com/watch?v=SYsiRFR2LGw

  • データボルト
    • データ基盤をアジャイルで作れる手法?
  • 基本設計工程で三層構造
  • 詳細設計工程でハブ、リンク、サテライトという概念でモデリングする
  • dbtボルトを開発する上で、読むべきドキュメントを紹介している
  • 容量の多いデータは向いてないiotとか行動データとか
  • 日本の文献が少ない
  • インクリメンタル理解したい
    • マテリアライゼーションは4つある
    • インクリメンタルで途中でカラムが増えたらどう挙動するか設定があり、DBによって挙動が変わる
    • 冪等生の設計も設定次第
YuichiYuichi

dbt Tokyo Meetup #4

https://www.youtube.com/watch?v=fac2PYddAlk

  • パイプラインコストが低コスト
  • append_new_columnsでカラムが増えたら、増やして消えた分は無視するオプション
    • 要は、新規追加されるカラムが伝搬されるために必要
    • dbt-utils,dbt-test,dbt-docsよく使う
  • dbt-unittestの紹介
YuichiYuichi

dbt Tokyo Meetup #5

https://www.youtube.com/watch?v=Jmu_YhoypyQ

  • 人事領域でdbt導入も面白そう
    • 権限をかなり絞っている
    • GASとかPythonでやるよりはdbtでやる方が良いらしい。採用ボリュームは年約100名
    • GitHub Actionsで定期実行してるっぽい
  • 行動ログとか大きいデータに対しては、dbtの実行時間カラムを追加していて、その時間の1時間以内のものを毎回テストすることで、コストコントロールをしている。ユニークやnot nullは時間で切ってテストしている
  • datafromとの比較
    • コミュニティが活性かしている?将来性?
    • 機能拡充という面でdbt
  • データモデリングやテストの工夫
    • 課題にフィットしたデータモデリングすべきか、会話することが重要
    • 命名ルールが重要、参照ルール→意図しない参照をしないようにする
    • シンプルなテストで重要
  • lightdashはdbtのプロジェクトと接続できるメリットがある
    • コード管理がdbtのymlで可能、ymlでjoinもできる
    • BI利用者に使用して欲しくないカラムの非表示もymlで設定できる
    • ymlの記載パターンが3パターンある
  • dbtのリファクタ
    • adhocレイヤーもある、全部ビュー、モデリングは自由
    • データパイプラインのデザインパターン
    • ドメイン知識をディメンショナルモデリングに応用
    • ドメインから逃げない
    • ユーザーが分かれていたら、日別、月別を一緒にせず違うテーブルにする
YuichiYuichi

Tokyo dbt meetup #6

https://www.youtube.com/watch?v=KeFQArh_NpM

  • メトリックレイヤー:ビジネスロジックを維持計算するためのツール
  • dbt-metricflowはJOIN機能が強い
    • ymlでjoinとかかける?
  • セマンティックレイヤー・メトリックスレイヤー
    • メトリックスフロー、キューブ、ルッカーがある
    • cubeは無料で使える範囲は広い
YuichiYuichi
YuichiYuichi

「技術書」の読書術を達人に聞いてみた - Forkwell Library #10

https://www.youtube.com/watch?v=I1k-7nuN9jU

  • 1冊で完結しない、変化が激しい、似たような情報がインターネット上にある
  • 新潮選書 「3」の発想 数学教育に欠けているもの : 芳沢 光雄
  • 3冊読もう
  • 読む量は学力の上限を規定し、書く量は学力の下限を規定する「岸本裕史」
  • 自分に合わない本は短時間で読む
  • 3回読む、どのくらいのスパンなのかな〜
  • 分類しようとすると破綻する、タグで管理する
  • アウトプットして身になるかは自分や周りの環境によって左右され運次第、アウトプット数を増やすことが重要
  • 読書からスタートして自己投資のサイクルを回す必要がある
  • 読書だけでは十分ではない
YuichiYuichi

エンジニアのためのドキュメントライティング - Forkwell Library #19

https://www.youtube.com/watch?v=766JpfhiLyI&list=PLa7KKuU8Ysns48x1kyQcvjziGOE0h4AMg&index=20

  • ドキュメント作成の準備から
  • ドキュメントは機能の一つ
  • 読み手の理解が最も重要!
    • どうすれば、ユーザーを理解できるのか
      • ユーザーと直接喋る
  • 知識の呪い(認知バイヤス)

https://zenn.dev/renn/articles/454ea916a29236
https://qiita.com/takasp/items/22f7f72b691fda30aea2

YuichiYuichi

レガシーコードとどう付き合うか - Forkwell Library #25

https://www.youtube.com/watch?v=_CZbP54Q4rI&list=PLa7KKuU8Ysns48x1kyQcvjziGOE0h4AMg&index=24

  • エンジニアリングを行う理由
    • ペインの解消とコスト削減
  • レガシーコードがあると改修に時間がかかる
  • レガシーコードの説明
    • 開発パフォーマンスが低下、デプロイの頻度が低下している
    • 遅延報酬
      • 遅延報酬割引は,後で得られる報酬の価値を決定する理論的神経科学の. 概念である
YuichiYuichi

データ分析基盤のはじめかた - オープンセミナー2022@広島

https://www.youtube.com/watch?v=81frXIr5HCI

  • 非常にデータ基盤の綺麗な説明だった。無駄が削ぎ落とされている
  • 非エンジニア向けにはこの動画を参考に説明したい
YuichiYuichi

PayPayのデータ分析基盤を支える技術 【PayPay Growth Tech vol.3】

https://www.youtube.com/watch?v=u4LJVXKPQww

  • データポータルで個人に紐ずくダッシュボードが退職によって、全部消えて業務に大きな支障だでたって(めっちゃ怖いな)
    • Googleのサポートも対応してくれなかったんや
  • データポータルもLookerも同じものやと思ってたが、レイアウトの自由度はデータポータルの方が高いようです。初知り
  • ユースケースによって、データポータルとLookerの使い分けが必要みたい
  • 使用者の教育重要だね
  • データポータル:個人用やアドホック分析、可視化にこだわりたい時
  • Looker:可視化にこだわらない、安定配信したい