🙂

データエンジニアリング用語集

に公開

本記事の目的

データエンジニアリングを勉強中です。
知らない単語が沢山出てくるのでこの記事に説明をまとめたいと思います。
なるべく曖昧さを省いてまとめます。
本記事は随時更新いたします。

データエンジニア各単語の説明

  • ETL

    • E...データを取り出すこと
    • T...使える形式にデータを変換すること
    • L...Tが完了したデータをユーザーの利用環境(DWHなど)に格納すること
      ELTという呼び方もありますが、昔はTをやってからDWHに保存していたらしい(ETL)ですが、DWHの方がマシンパワーに余力があるので、DWH側でやるようになりELTという呼び方が生まれたそうです[1]
  • データダンプ

    • データベースのバックアップのために、「どんな復元環境でも読込可能な形式」でデータを出力すること。バックアップ取るなら「元々のDBを別名称で他の場所に保存すればよいのでは?」と最初は思いました。DB形式だと復元環境で使用できないことが多いので、sqlやcsvなど「どんな復元環境でも読込可能な形式」でデータを出力する必要があると理解しています。
  • federated query

    • 別のDBに対して叩くことができるクエリのこと。データ移行が必要ないので工数を抑えたい場合は便利そう。
  • GA

    • General Availabilityの略、一般公開という意味
  • View,Table,Incrementalの違い

    • 後日追記
  • Materialized View

    • 後日追記
脚注
  1. https://www.youtube.com/watch?v=6xc9MAwPdCc&list=PLVj4iIZgzTAoQiCDqkqkYniLpDLWYWCWC&index=2 ↩︎

Discussion