🐥

Big Data is Dead

2023/02/12に公開

Big data

idea

前置き

少し話題になっている、GoogleのBigQueryの立ち上げエンジニアだった方の Big Data is Dead という記事を読んだので、本当に簡単にですが自分の目線でまとめてみました。

記事のまとめ（意訳）

テラバイトやペタバイトクラスのデータを扱うケースは極まれで、大半のユーザーはそれよりはるかに小さいデータしか扱わない
技術面では、大半のビッグデータのニーズは既に満たせる状態になった
- 実際、近年はMongoDBのScoreが下がってきている一方、MySQLは常に横ばいで安定したScoreを見せている
ストレージと計算処理を分離して管理できるようになったのは１つのブレークスルー
これにより、大容量のデータを保持しやすくなった
- オンプレからクラウドにシステムを移行したある企業では、移行にともなって保持するデータ量が数十倍になった
  - （高価な）CPUの増設をすることなく、（廉価な）ストレージのサイズアップを行えるようになったため
一方で、データを保持し続ける副作用もある
- ①データの意味や背景は変化し続けるので、各時期のメトリクスの定義を管理、統合するコストはデータ保持期間にともなって大きくなる
- ②プログラムのバグにより不適切なデータ管理・保持があった場合はさかのぼってデータをメンテナンスしたりなど（特に法令による管理基準を規定されているデータの場合）

感想

ひと昔の視点でいうBig Dataはもはや too big なデータではなく、OSSやパブリッククラウドベンダーによって大半のニーズを充足できており、一方で今以上の too big なデータを扱えるようになる必要性はあまりないよねという観点での「Big Data is Dead」なのかなと感じました。

前置き

記事のまとめ（意訳）

感想

Discussion