📕

データエンジニアリング勉強記録(日々追記)

に公開

データエンジニアリング勉強記録メモです。せっかくまったく新しい分野を勉強するので、記録しておこうかなとふと思い立ったので。

※しばらく日々追記予定

『改訂新版[エンジニアのための]データ分析基盤入門<基本編> データ活用を促進する! プラットフォーム&データ品質の考え方』

https://amzn.to/477kM8u

斎藤友樹(著)、技術評論社

2025/10/20 読了。知らない言葉や概念の羅列で大変勉強になったと思うが、故に読むのが非常に大変だった…。少なくともある時点での重要なトピック自体は拾えたのではないかと期待したい。ビッグデータ基盤の歴史的変遷の話に触れられているのも良かった。ちょっとクラウド利用が AWS 中心だなと感じたが、まあそれはそれ。

内容

おそらく網羅的?な上に知らないことが多かったのでまとめられない。特に興味深く付箋を貼ったようなトピックスを引いておく。

  • 2.5 データ分析基盤におけるデータの種別とストレージ戦略
    • 表 2.1 アクティビティとストレージレイヤー(保存先)の関係表
  • 2.6 ストレージレイヤー
    • データのゾーン管理
  • 3.3 データ管理デザインパターン
    • タグを使った論理ゾーン化によるゾーンの管理
  • 4.6 ストレージレイヤーの技術スタック
    • ④ その形式は「スプリッタブル」か
    • 表 4.2 フォーマットと圧縮形式の組み合わせがスプリッタブルか
  • 6.3 スキーマ設計
    • 非正規化
  • 6.5 データマートのプロパゲーション
    • データマート生成停止の条件を定める
  • 6.6 ストリーミングとデータマート
    • Column データマートの生成、その前に データウェアハウスとの使い分け
  • 8.1 データ分析基盤とデータドリブン
    • (間接部門であることによるデータ分析基盤の成果の分かりづらさの問題について)
  • 8.4 データ分析基盤観点の KGI/(CSF)/KPI
    • (代表的な KGI の例)

コメント

  • データエンジニアリング組織は中間組織であり、その評価を営業活動のKPIといった外部KPIに依存してしまう、つまりそもそも「誰か」のためにシステムが作られる構造があるのが難しいところだなという所感を持った
  • データ分析基盤というインフラとしてのKGI/KPIは作れるとはいえ、それはいわゆる開発生産性の議論のようにその指標を追うことそのものは重要ではない、と思われる
  • つまり「データエンジニアリング界のKent Beck」みたいなものが知りたいけど、まあ難しいのかな

『データエンジニア データ活用力を高める組織のキーパーソン』

https://amzn.to/4qbC1hJ

園田隆盛(著)、M.A.アティック(著)、中村仁也(監修)、共立出版

2025/10/13 読了。技術的な内容の本をはじめに読み始めたが、そもそもデータエンジニアリングの意義・価値を理解すべきだと思ったので読んでみた。論文的なテイストに起因する読みづらさはあるが、しかし論旨は非常に明白でわかりやすくてよかった。

内容

  • ビジネス上のデータエンジニアリング組織
    • 経営部門、オペレーション部門、情報システム部門の 3 機能モデルで整理したとき、各部門のミッションやデータ利活用に必要な活動、部門間の認識ずれなどが課題となる
    • データエンジニアリング組織はデータ利活用を主ミッションとして、各部門のコミュニケーションの中心となり、他部門が対応しきれない業務を肩代わりする
  • 3 部門が担う役割・必要な視点・協働について整理
    • 共通の視点:分析の目的、データ基盤の仕様、データの生成機序
    • ただし各部門内にも経営・オペレーション・情報システムの 3 機能を持つフラクタル性があり、できることはデータエンジニアリング組織に限らない
  • データエンジニアの役割
    • 繋ぎ役として 3 部門との信頼関係が求められる
    • スピードを要する意思決定支援に際して、不確実性を内包しつつも結果を提出する責任を担う=スピードや機動性が重要
      • 情報処理を受け持つ情報システム部門では正確性が求められるため、データエンジニアはミッション・評価が異なる性質を持つ(よって独立していることが望ましい)

コメント

  • コミュニケーションの定義やノイズについて、クロード・シャノンを引いて説明するのがなんか面白かった、そういうの好きです
    • あとでデータエンジニアリングの分野でデータ品質劣化のことを「ノイズ」と呼称することが一般的だと知った

『データエンジニアリングの基礎 ―データプロジェクトで失敗しないために』

https://amzn.to/4hdSmy7

Joe Reis(著)、Matt Housley(著)、中田秀基(訳)、オライリー・ジャパン

TODO: 買った。読む。

『アジャイルデータモデリング 組織にデータ分析を広めるためのテーブル設計ガイド』

https://amzn.to/4qnJXwy

ローレンス・コル(著)、ジム・スタグニット(著)、講談社

TODO: 買った。読む。

『Google Cloud ではじめる実践データエンジニアリング入門』

https://amzn.to/48yit0K

饗庭秀一郎(著)、下田倫大(著)、西村哲徳(著)、寳野雄太(著)、山田雄(著)、技術評論社

TODO: 2 章くらいまで読んで、まだ「データエンジニアリングとは」みたいなことがわかってないと思った。続きはあとで、または実際に手を動かす段階になって読む。ただ以前 Dataflow を触ったとき気になっていた関連サービスの箇所だけ拾い読み。

『(模擬問題付き)徹底攻略 Google Cloud 認定資格 Associate Cloud Engineer 教科書』

https://amzn.to/3J4gOWk

根本泰輔(著)、奥村健太(著)、前山弘樹(著)、中野慎也(著)、坂田功祐(著)、久保航太(著)、佐塚大瑚(著)、インプレス

実業務が Google Cloud 想定なので、ひとまず Google Cloud Associate Cloud Engineer を 2025/09 に取得した。勉強のために購入し、あとは Udemy の模擬試験をやったくらい。

『データマネジメントが 30 分でわかる本』

https://amzn.to/493ZuuW

ゆずたそ(著,編集)、はせりょ(著)、株式会社風音屋(著)、

2025/08/31 読了。DMBOK ベースにトピックを整理されており、最初に全体のトピックを概観するために読む本としてよかったと思う。最初に読んだため、ざっくり読み流したので、ケーススタディなど細かな点は改めて読み返したい。

GitHubで編集を提案

Discussion