Open9日前にコメント追加24

【動画】Youtube動画視聴ログ

ピン留めされたアイテム

Data Engineering Study

2024/03/12　：　6まで視聴済み

Data Engineering Study #23 Data orchestration 特集

ワークフローオーケスレーションはモダンデータ時代に入っている
モダンデータスタックとは
- 従来のデータスタックのの課題を解決しようとする技術トレンドの総称
DAGのメリット
- 実行順序を事前に決定できるので、ワークフローの依存関係をコードで表現できる
- 最後のタスクが成功＝ワークフローが成功なので、タスクの状態管理がやりやすい
- https://github.com/meirwah/awesome-workflow-engines
  - 100個のワークツールがまとまっている
使いやすいとは
- 技術・人・カネの制約の中でプロダクト課題を解決できる最も扱いやすいもの
技術選定は、期待することをまとめる
プリフェクトは脆弱性があって、digdagに戻っている＿サイバーエージェント
fundamental of data engineerringで読みながら構築すると、回避できる問題がいくつかかる
- 世の中はバグだらけ、システムもバグるよw
ダグスター
- ブランチデプロイ機能で、本番環境に近い環境でテストできる
- python の習熟度がかなり必要
- 自前サーバー、ハウブリット、サーバレスを選択できる
- airflowからダグスターへの移行はdbtの導入したいというモチベ、dbtとダグスターの組み合わせが良い

「Redshift最新アップデートと活用事例」Data Engineering Study #7

シェアードナッシング
- 複数のコンピュータで処理を分散して実行する分散システムの構成法の一つで、システムを構成するコンピュータ間で何も共有しない方式のこと。
MPP、Massively Parallel Processingアーキテクチャ
- 簡単に言うと、MPP データベースは、データと処理能力が複数の異なるノード（サーバー）間で単一のリーダーノードと単一または複数のコンピュートノードで分割された、データベースまたはデータウェアハウスの一種です。- MPPでは、リーダー（あなた）はリーダーノードと呼ばれ、他の全員に指示を出し、最終的な集計を行います。そして図書館の従業員、つまりあなたのヘルパーは、コンピュートノードと呼ばれ、データを全て処理し、クエリを実行して、単語を数えます。
Federated Query複数のDBをまたがってクエリする
マテリアライズドビュー
- データの実体を持ったビューのことです。
やっぱりAWSで構築しているのでレッドシフトを採用するケースが多い
SUPERというデータ型、半構造化データをサポート
https://blog.trocco.io/category/data-engineering-news
バルクエクスポートが一番価値が高い

Data Engineering Study #22 5社のデータエンジニアが振り返る2023

生データをリアルまたはニアリアルで取り込む
- 早くて安いってのがいいね、運用コストはどうなんだろう
- 社員全員アナリスト計画いいね
生成AIでダッシュボードが作成されるのはインパクトあるね
データ人材のキャリア
- hubspot(analytics investment)、gitlab(data champion)
データディスカバリーは、データを一元化し、一箇所で管理するプロセスです。ウェアハウスやBIツール、ETLレイヤーの上に位置する形となり、データのアグリゲーター(集める、合計する、集計するもの)として機能します。データディスカバリーツールを使うことで、サイロ化されたツールからメタデータを抽出し、データ利用者が異なるツールにジャンプすることなく、このメタデータを検索できるようになります。

Dataplex
- リネージの自動生成とよく使っているテーブルを上位表示してくれる
- dbt docsだけでは物足りない
- IAMの再設定が不要（他のSaasだと、、、）
dbt-osmoisをgithubアクションズで動作させている
データパイプラインを水道で例える
- ダム、浄水場、蛇口
エクセルは人が読みやすいく機械が読みにくい形になっていることが多い
データにおける便益を人々に届けることを優先する→各省庁に対して
プラットフォームエンジニアリングで重視する考え方
- 基盤のユーザー（開発者）を顧客に見立てたプロダクションマネジメントのアプローチを取るPdMをおく

https://datadeveloperplatform.org/

 「BIツール特集－OSS・商用の上手い使い分け」Data Engineering Study #8https://www.youtube.com/watch?v=RUtCXmjTYbM
BIツールの歴史を学べた
オープエイトでは、Redashをアドホック、tableauを全社KPIで使用
Redash
データ抽出にSQLを使える
pythonデータソース機能で、SQLの中にPythonをかける
query resultsデータソースは、Redash内のクエリ結果に対してクエリできる
つまりCSVとかスプレッドシートにクエリが簡単にかける

構成をバージョン管理はない。redashのapiでgitにクエリをコミットする力技がある

lookerの導入
BIの構築は何周も再構築が必要。なにをlookerでやらないのかを決める
アクションハブ機能が面白い
いけてるデータマートを構築できるかどうか

Data Engineering Study #25 データカタログの現在地

1:20:19 / 2:30:06

dbt Tokyo

dbt Tokyo Meetupのアーカイブが掲載されている
https://www.youtube.com/@dbttokyo1169

dbt Tokyo Meetup #3

データボルト
- データ基盤をアジャイルで作れる手法？
基本設計工程で三層構造
詳細設計工程でハブ、リンク、サテライトという概念でモデリングする
dbtボルトを開発する上で、読むべきドキュメントを紹介している
容量の多いデータは向いてないiotとか行動データとか
日本の文献が少ない
インクリメンタル理解したい
- マテリアライゼーションは４つある
- インクリメンタルで途中でカラムが増えたらどう挙動するか設定があり、DBによって挙動が変わる
- 冪等生の設計も設定次第

dbt Tokyo Meetup #4

パイプラインコストが低コスト
append_new_columnsでカラムが増えたら、増やして消えた分は無視するオプション
- 要は、新規追加されるカラムが伝搬されるために必要
- dbt-utils,dbt-test,dbt-docsよく使う
dbt-unittestの紹介

dbt Tokyo Meetup #5

人事領域でdbt導入も面白そう
- 権限をかなり絞っている
- GASとかPythonでやるよりはdbtでやる方が良いらしい。採用ボリュームは年約１００名
- GitHub Actionsで定期実行してるっぽい
行動ログとか大きいデータに対しては、dbtの実行時間カラムを追加していて、その時間の１時間以内のものを毎回テストすることで、コストコントロールをしている。ユニークやnot nullは時間で切ってテストしている
datafromとの比較
- コミュニティが活性かしている？将来性？
- 機能拡充という面でdbt
データモデリングやテストの工夫
- 課題にフィットしたデータモデリングすべきか、会話することが重要
- 命名ルールが重要、参照ルール→意図しない参照をしないようにする
- シンプルなテストで重要
lightdashはdbtのプロジェクトと接続できるメリットがある
- コード管理がdbtのymlで可能、ymlでjoinもできる
- BI利用者に使用して欲しくないカラムの非表示もymlで設定できる
- ymlの記載パターンが３パターンある
dbtのリファクタ
- adhocレイヤーもある、全部ビュー、モデリングは自由
- データパイプラインのデザインパターン
- ドメイン知識をディメンショナルモデリングに応用
- ドメインから逃げない
- ユーザーが分かれていたら、日別、月別を一緒にせず違うテーブルにする

Tokyo dbt meetup #6

メトリックレイヤー：ビジネスロジックを維持計算するためのツール
dbt-metricflowはJOIN機能が強い
- ymlでjoinとかかける？
セマンティックレイヤー・メトリックスレイヤー
- メトリックスフロー、キューブ、ルッカーがある
- cubeは無料で使える範囲は広い

みんなの講座シリーズ

2024/03/12　：　全て視聴済み

歴史好きにはいい動画シリーズ
peiさんすごい

primeNumber Inc.

2024/03/13現在：全ての動画視聴済み

フォークウェル公式 ITエンジニアのキャリアと学び

Infra Studyは気になる

Forkwell Library

「技術書」の読書術を達人に聞いてみた - Forkwell Library #10

１冊で完結しない、変化が激しい、似たような情報がインターネット上にある
新潮選書「3」の発想数学教育に欠けているもの : 芳沢光雄
3冊読もう
読む量は学力の上限を規定し、書く量は学力の下限を規定する「岸本裕史」
自分に合わない本は短時間で読む
３回読む、どのくらいのスパンなのかな〜
分類しようとすると破綻する、タグで管理する
アウトプットして身になるかは自分や周りの環境によって左右され運次第、アウトプット数を増やすことが重要
読書からスタートして自己投資のサイクルを回す必要がある
読書だけでは十分ではない

エンジニアのためのドキュメントライティング - Forkwell Library #19

ドキュメント作成の準備から
ドキュメントは機能の一つ
読み手の理解が最も重要！
- どうすれば、ユーザーを理解できるのか
  - ユーザーと直接喋る
知識の呪い（認知バイヤス）
- ユーザーへの共感が必要
- フリクションログ:うまく使えなかったなと思うログ
- ユーザーはFパターンでドキュメントを読む→流し読みしやすい情報状況
  - 達成できることを最初に書く
  - https://zenn.dev/zenn/articles/markdown-guide
- 計測できないものは改善できない
- ドキュメントの目的、ユーザーの行動促進とゴールを達成する
- ヘルプサイトの作り方 (WEB+DB PRESSプラスシリーズ)
- 〜こと、〜方法：をつけて名詞化する病気
- 文章のリンター、textlint、Just Right!

レガシーコードとどう付き合うか - Forkwell Library #25

エンジニアリングを行う理由
- ペインの解消とコスト削減
レガシーコードがあると改修に時間がかかる
レガシーコードの説明
- 開発パフォーマンスが低下、デプロイの頻度が低下している
- 遅延報酬
  - 遅延報酬割引は，後で得られる報酬の価値を決定する理論的神経科学の. 概念である

データ分析基盤のはじめかた - オープンセミナー2022@広島

非常にデータ基盤の綺麗な説明だった。無駄が削ぎ落とされている
非エンジニア向けにはこの動画を参考に説明したい

PayPayのデータ分析基盤を支える技術【PayPay Growth Tech vol.3】

データポータルで個人に紐ずくダッシュボードが退職によって、全部消えて業務に大きな支障だでたって（めっちゃ怖いな）
- Googleのサポートも対応してくれなかったんや
データポータルもLookerも同じものやと思ってたが、レイアウトの自由度はデータポータルの方が高いようです。初知り
ユースケースによって、データポータルとLookerの使い分けが必要みたい
使用者の教育重要だね
データポータル：個人用やアドホック分析、可視化にこだわりたい時
Looker:可視化にこだわらない、安定配信したい

TECH PLAY運営事務局

https://www.youtube.com/@techplay4535

BIツール研究所

https://www.youtube.com/@bi5562/videos

bq_sushi

https://bq-sushi.connpass.com/

https://jobs.forkwell.com/events

ログインするとコメントできます