今更感満載なビックデータについて

3 min read読了の目安(約2800字

Zenn初投稿です。

10月1日(この記事を書いている次の日)から完全未経験の分野「ビックデータ」を扱う仕事を任されることになり、自分の学習したことをまとめていく場としてZennに記事を投稿していこうと思います。

ビッグデータってなに?

もう知らない人がいないであろう「ビッグデータ」
ですが、改めて「ビッグデータって何を表しているんだろう」というところから入っていきたいと思います。

Wikipediaの文章からみるビッグデータ

以下、Wikipediaの ビッグデータ からの引用です。

ビッグデータ(英: big data)とは、一般的なデータ管理・処理ソフトウエアで扱うことが困難なほど巨大で複雑なデータの集合を表す用語である。組織が非常に大きなデータセット(テラバイト、ペタバイト、エクサバイトなどで測定)を作成、操作、および管理できるようにするすべてのものと、これらが格納されている機能を指す。

ここで出てくる「一般的なデータ管理・処理ソフトウェア」というのは僕たちが今まさに使っているラップトップやスマートフォン、それにインストールされているソフトウェアのことだと思います。
そういった「一般的なデータ管理・処理ソフトウェア」で扱えないような膨大データ、またそれを扱えるようにする工程や技術のことをひっくるめて「ビッグデータ」と読んでいるようです。

大事なのは、膨大なデータの塊を「ビッグデータ」とは単純に呼べない、ということです。
膨大なデータをどう扱えるようにするかも「ビッグデータ」の範疇だと思っています。

ビッグデータをビッグデータたらしめるもの

調べていたところ、 5つの評価軸(5Vs) を見つけました。

1. Volume (量)

これはわかりやすいですね。どのくらいのデータ量があるか、という点です。
この量が多ければ多いほどビッグデータに近づいていきます。

2. Velocity (速度)

速度も重要な軸になってきます。ユーザーがゲームをプレイしていてどこでポーズしたか、どこでゲームを中断したか、もしくセンサーから得られるリアルタイムな情報など。
それらのデータが流れてくる速度も昔と比べるとかなり上がっています。

3. Variety (種類)

データの形式を表す軸です。

  • しっかりとフォーマットされているデータ(Excelなど)
  • すこしフォーマットされているデータ(Logファイルなど)
  • まったくフォーマットされていないデータ(画像や音声データなど)

の3つをが挙げられます。
技術やアイデアなどのトピックを表す物ではありません。

4. Veracity (信憑)

その情報がいかに信用できるものなのか、という軸です。
集めたけど、全くつかえないデータでは意味がありません。

5. Value (価値)

そのデータがどんな価値を提供できるか、という軸です。
例えば、

  • 病気の発症を検知する
  • 病気に対しての最善の治療法を提供する

など、データを利用することで得られるものを表します。

この 5Vs からも膨大なデータを「ビッグデータ」とは単純に呼べないことがわかります。

ビッグデータの加工とそのステージ

ビッグデータは、そのままでは人が扱うには膨大で煩雑としています。
上で書いた「Variety (種類)」でも説明したように、いつもきちんとフォーマットされたデータが得られるとも限りません。
ある程度、量も減らして有用なデータを見定める必要もあります。

そこでビッグデータを扱う段階を3つのステージに分けることがあります。

データレイク

名前にもあるようにこのステージは「データの湖」です。
このステージでは、データの量やフォーマットされているかされていないかはあまり気にせず、とりあえず得られたデータを保存していきます。

「データをどのように活用したいか」や「ビジネスで解決したいことがまだ見えていない」という段階では、データの取捨選択ができない状態のため、得られるデータをあとで使えるようにできるだけそのままの形で保存しておきます。

これがデータレイクです。

データウェアハウス

次のステージはデータの倉庫になります。
データレイクとは異なり、このステージでは人が扱いやすいようにフォーマットされたデータを格納します。

このステージは、ある程度データを扱う用件が見えている段階で力を発揮します。

例えば、ECサイトを例にとると、

  • 1日の中のアクティブユーザー数の変動
  • 決済画面で離脱するユーザーがどのくらいいるか

など具体的に調べたい用件がわかっていてそれを調べやすいようにデータをフォーマットします。

フォーマットされた状態の人やソフトウェアが扱いやすいデータを保存しておくのがデータウェアハウスです。

データマート

このステージになると、さらに用件が細かく決まっている段階になります。
またECサイトを例にとると、

  • 1日の中で「A」という商品を購入する女性はどの時間帯が多いか

などさらに用件が細かく決まってきて、そこに特化して調べられるようにフォーマットされたデータを保存しておきます。
この例は極端すぎるかもしれませんが、データウェアハウスよりももっと細かい用件を調べるためのデータを保存するところがデータマート、と認識すれば間違いないと思います。

このように3つのステージに分けてビッグデータを扱いやすいようにします。
流れとしては データレイク -> データウェアハウス -> データマート と段階を踏むのが一般的なようです。
(データを扱う用件が決まっていればデータウェアハウスから入っても問題ありません。)

また、データレイクからデータマートまでの流れの中には「処理」や「分析」などの作業が入ってきます。
この作業の流れを 「データパイプライン」 と呼ぶようです。

このデータパイプラインをいかに効率よく組むかが、ビッグデータを効果的にビジネスに適用する要になります。
(速く結果が欲しいのに、データ分析に2,3日かかってたら本末転倒ですもんね・・・。)

最後に

今回はビックデータについての概要をまとめました。

こんな感じで、未経験ながらに勉強したことを定期的にZennでまとめていきます。
「ここ間違ってるよ」とか「この本は読んどけ」とかありましたらコメントいただけますと励みになります!