Closed3
データエンジニアにおけるスキルセットとそれらの活かしどころ
データエンジニアに共通している内容は データパイプライン(ETL/ELT)の整備
をすること
使用するスキルセットは データ量
と データを用いる範囲
で異なってくる
データ量の目安としては以下の通り(主観です)
- nGB~nTB
- n0TB以上(PBクラス)
全社は比較的少ない量、後者は大量のデータになる(海外では1つ上の桁になりそう)
具体的にこれらで変わってくるのは 分散処理を行う必要があるか
になってくる
少ないデータ量に対して分散処理(i.e. mapreduce, spark)を行おうとするとオーバーヘッドが大きくなる
例えばAWS EMRを使用するとなると
- EMRに使用するEC2の起動
- EC2をクラスタリング & プロビジョニング
してからようやくsparkが使えるようになる
データ基盤に携わるエンジニア(データエンジニア)は関わろうとすれば際限がない仕事だと思っている
そうなるとなりたい方向性がぼんやりとしているとスキルの積み方に優先度を付けられなくなり、技術の伸び悩みを感じることにつながる
なので方向性として以下のようなレイヤーを設けると学習方針も狭まると考えられる
少なくとも全てができる人、というのは市場に多く居ない(=超高度技術保持人材)
データエンジニアとしてのキャリアの歩み方
- 組織運営といったデータ基盤をどのように企業の軸にするべきかについて指揮する人
- マネージメントレイヤー、上部組織に近いポジション
- データ基盤をデザイン(設計)できる人
- テックリード、リーダーポジション
- データ基盤を構成する各種モジュールに精通しており適切な処理を実装が行える人
- プリンシパル、手を動かすことがメインな人
data engineer roadmapを見ながら必要とされるスキルが どこに
どのような場面で
必要になるのかを書き記しても良いかも知れない
このスクラップは2022/02/25にクローズされました