🐥

Big Data is Dead

2023/02/12に公開

前置き

少し話題になっている、GoogleのBigQueryの立ち上げエンジニアだった方の Big Data is Dead という記事を読んだので、本当に簡単にですが自分の目線でまとめてみました。

記事のまとめ(意訳)

  • テラバイトやペタバイトクラスのデータを扱うケースは極まれで、大半のユーザーはそれよりはるかに小さいデータしか扱わない
  • 技術面では、大半のビッグデータのニーズは既に満たせる状態になった
    • 実際、近年はMongoDBのScoreが下がってきている一方、MySQLは常に横ばいで安定したScoreを見せている
  • ストレージと計算処理を分離して管理できるようになったのは1つのブレークスルー
  • これにより、大容量のデータを保持しやすくなった
    • オンプレからクラウドにシステムを移行したある企業では、移行にともなって保持するデータ量が数十倍になった
      • (高価な)CPUの増設をすることなく、(廉価な)ストレージのサイズアップを行えるようになったため
  • 一方で、データを保持し続ける副作用もある
    • ①データの意味や背景は変化し続けるので、各時期のメトリクスの定義を管理、統合するコストはデータ保持期間にともなって大きくなる
    • ②プログラムのバグにより不適切なデータ管理・保持があった場合はさかのぼってデータをメンテナンスしたりなど(特に法令による管理基準を規定されているデータの場合)

感想

ひと昔の視点でいうBig Dataはもはや too big なデータではなく、OSSやパブリッククラウドベンダーによって大半のニーズを充足できており、一方で今以上の too big なデータを扱えるようになる必要性はあまりないよねという観点での「Big Data is Dead」なのかなと感じました。

Discussion