Open1

「データエンジニアリングの基礎」の読書メモ

pirosikickpirosikick

1章 データエンジニアリング概説

  • データエンジニアリングとは?
    • データを取得・保存し、データサイエンティストやデータアナリストが利用できるように整備すること
    • "生データを取り込み、下流の分析や機械学習などで利用しやすいこうひんしつで 一貫性のある情報を生成するシステムとプロセスの開発、実装、維持管理"
  • データエンジニアとは?
    • データエンジニアリングライフサイクルの管理をする
    • "本書で取り上げるデータエンジニアは、より正確に言えば「データライフサイクルエンジニア」だ"
    • データサイエンティスト、アナリストの上流工程
  • データエンジニアリングライフサイクルとは?
    • 本書が中心にするコンセプト
    • 生成→保存→取り込み→変換→提供、というステージ
    • セキュリティ、データ管理、DataOps、データアーキテクチャ、オーケストレーション、ソフトウェアエンジニアリングなどの底流
      • 底流=「川や海などの、表面には現れていない底の方の流れ。比喩的に、物事の表面に現れていないが、その根底に動いている勢い・感情。そういう動き。」
      • ステージが表面に現れるもので、底流は現れないけど重要なやつってかんじ?
  • 歴史
    • 興味ある人が読めばよさそう
  • データ成熟度
    • 組織のデータ活用、能力、統合の度合い
    • データを使い始める、データとともに成長する、データでリードするの3ステージ
    • "データから目に見える成功が多く得られなければ、組織の意思が弱まる" 確かに。
    • 既存のソリューションをなるべく使うことが強調されていた。強みが出る部分のみカスタムすべき。
  • データエンジニアに求められるスキル
  • 技術的責務

感想:データエンジニア、泥臭そう。