Open4

Hadoop

あかさたなあかさたな
あかさたなあかさたな

並列分散処理の種類

  • バッチ処理:まとまった大規模なデータ効率よく処理する
  • ストリーム処理:細かく数が多いデータをリアルタイムで処理する
    • ユーザー行動のリアルタイムな把握
    • リアルタイムのマーケティング
あかさたなあかさたな

Hadoopはバッチ処理のデータ保存と処理を行う目的で作られたフレームワーク
複数台の汎用サーバを使用して処理を行う

Hadoopによって大規模なデータの保存と処理が可能になった
コンセプトは複数台のサーバのディスクを効率よく利用すること

Hadoop Mapreduceは単純な処理しかできないため、複雑な処理をしようとすると複数のジョブ(Mapreduce)を用意する必要があり、ジョブを実行する度にディスクを読み書きするため、効率が悪くなってしまうという弱点もある
→それを解決するためにapache sparkが出てきた

データ生成元からデータを持ってくる手段はないため、それぞれのソフトウェアで実装する必要がある
→それを解決するためembulkが出てきた

あかさたなあかさたな

以下の2つから構成されている

  • HDFS(Hadoop Distributed File System):分散型ファイルシステム、データ保存を担当
  • Hadoop Mapreduce:大規模データを並列処理するためのフレームワーク