Open24日前にコメント追加4

Hadoop

あかさたな

並列分散処理の種類

バッチ処理：まとまった大規模なデータ効率よく処理する
ストリーム処理：細かく数が多いデータをリアルタイムで処理する
- ユーザー行動のリアルタイムな把握
- リアルタイムのマーケティング

あかさたな

Hadoopはバッチ処理のデータ保存と処理を行う目的で作られたフレームワーク

複数台の汎用サーバを使用して処理を行う
Hadoopによって大規模なデータの保存と処理が可能になった

コンセプトは複数台のサーバのディスクを効率よく利用すること
Hadoop Mapreduceは単純な処理しかできないため、複雑な処理をしようとすると複数のジョブ（Mapreduce）を用意する必要があり、ジョブを実行する度にディスクを読み書きするため、効率が悪くなってしまうという弱点もある

→それを解決するためにapache sparkが出てきた
データ生成元からデータを持ってくる手段はないため、それぞれのソフトウェアで実装する必要がある

→それを解決するためembulkが出てきた

あかさたな

以下の2つから構成されている

HDFS（Hadoop Distributed File System）：分散型ファイルシステム、データ保存を担当
Hadoop Mapreduce：大規模データを並列処理するためのフレームワーク