Open1
「データエンジニアリングの基礎」の読書メモ
1章 データエンジニアリング概説
- データエンジニアリングとは?
- データを取得・保存し、データサイエンティストやデータアナリストが利用できるように整備すること
- "生データを取り込み、下流の分析や機械学習などで利用しやすいこうひんしつで 一貫性のある情報を生成するシステムとプロセスの開発、実装、維持管理"
- データエンジニアとは?
- データエンジニアリングライフサイクルの管理をする
- "本書で取り上げるデータエンジニアは、より正確に言えば「データライフサイクルエンジニア」だ"
- データサイエンティスト、アナリストの上流工程
- データエンジニアリングライフサイクルとは?
- 本書が中心にするコンセプト
- 生成→保存→取り込み→変換→提供、というステージ
- セキュリティ、データ管理、DataOps、データアーキテクチャ、オーケストレーション、ソフトウェアエンジニアリングなどの底流
- 底流=「川や海などの、表面には現れていない底の方の流れ。比喩的に、物事の表面に現れていないが、その根底に動いている勢い・感情。そういう動き。」
- ステージが表面に現れるもので、底流は現れないけど重要なやつってかんじ?
- 歴史
- 興味ある人が読めばよさそう
- データ成熟度
- 組織のデータ活用、能力、統合の度合い
- データを使い始める、データとともに成長する、データでリードするの3ステージ
- "データから目に見える成功が多く得られなければ、組織の意思が弱まる" 確かに。
- 既存のソリューションをなるべく使うことが強調されていた。強みが出る部分のみカスタムすべき。
- データエンジニアに求められるスキル
- 技術的責務
感想:データエンジニア、泥臭そう。