🐥
Big Data is Dead
前置き
少し話題になっている、GoogleのBigQueryの立ち上げエンジニアだった方の Big Data is Dead という記事を読んだので、本当に簡単にですが自分の目線でまとめてみました。
記事のまとめ(意訳)
- テラバイトやペタバイトクラスのデータを扱うケースは極まれで、大半のユーザーはそれよりはるかに小さいデータしか扱わない
- 技術面では、大半のビッグデータのニーズは既に満たせる状態になった
- 実際、近年はMongoDBのScoreが下がってきている一方、MySQLは常に横ばいで安定したScoreを見せている
- ストレージと計算処理を分離して管理できるようになったのは1つのブレークスルー
- これにより、大容量のデータを保持しやすくなった
- オンプレからクラウドにシステムを移行したある企業では、移行にともなって保持するデータ量が数十倍になった
- (高価な)CPUの増設をすることなく、(廉価な)ストレージのサイズアップを行えるようになったため
- オンプレからクラウドにシステムを移行したある企業では、移行にともなって保持するデータ量が数十倍になった
- 一方で、データを保持し続ける副作用もある
- ①データの意味や背景は変化し続けるので、各時期のメトリクスの定義を管理、統合するコストはデータ保持期間にともなって大きくなる
- ②プログラムのバグにより不適切なデータ管理・保持があった場合はさかのぼってデータをメンテナンスしたりなど(特に法令による管理基準を規定されているデータの場合)
感想
ひと昔の視点でいうBig Dataはもはや too big なデータではなく、OSSやパブリッククラウドベンダーによって大半のニーズを充足できており、一方で今以上の too big なデータを扱えるようになる必要性はあまりないよねという観点での「Big Data is Dead」なのかなと感じました。
Discussion