Open4
Hadoop
並列分散処理の種類
- バッチ処理:まとまった大規模なデータ効率よく処理する
- ストリーム処理:細かく数が多いデータをリアルタイムで処理する
- ユーザー行動のリアルタイムな把握
- リアルタイムのマーケティング
Hadoopはバッチ処理のデータ保存と処理を行う目的で作られたフレームワーク
複数台の汎用サーバを使用して処理を行う
Hadoopによって大規模なデータの保存と処理が可能になった
コンセプトは複数台のサーバのディスクを効率よく利用すること
Hadoop Mapreduceは単純な処理しかできないため、複雑な処理をしようとすると複数のジョブ(Mapreduce)を用意する必要があり、ジョブを実行する度にディスクを読み書きするため、効率が悪くなってしまうという弱点もある
→それを解決するためにapache sparkが出てきた
データ生成元からデータを持ってくる手段はないため、それぞれのソフトウェアで実装する必要がある
→それを解決するためembulkが出てきた
以下の2つから構成されている
- HDFS(Hadoop Distributed File System):分散型ファイルシステム、データ保存を担当
- Hadoop Mapreduce:大規模データを並列処理するためのフレームワーク