🐘

令和時代のHadoop(関連)学習リソース

2021/03/20に公開

※記述の簡略化のためでは、Hadoop(MapReduce、HDFS?)+Hadoopに関連するエコシステム(Hive、Tez、Ozone、Spark…)を引っくるめてHadoopと書きます

Hadoopの登場から早15年。かっての綺羅びやかな響きは既に去り、Clouderaが「end of the Hadoop era」なんて言ってしまう時代です。
それでも、Hadoop環境がペイできるほど大規模だったり、既存システムがHadoopだったりで、これからHadoopをキャッチアップする人もいるでしょう。

そんな人が、令和時代にHadoopをキャッチアップしようとして直面するのが、

情報が少ねえ…

正確には

(新しい)(日本語の)(入門向けの)情報が少ねえ…

という問題でしょう。

そんなわけで、令和時代のHadoopの入門に使えそうなリソースを集めてみました。
他にこういうリソースあるよとか、このリソース駄目だよとかあればコメントお願いします(※)!

※ Yahoo! Japanさんとか、LINEさんとか、Treasure Dataさんとかどうしているのだろう…


公式サイト

公式サイトやソースコードを最初に見る習慣があるのが、強いエンジニアの証だってボブが言ってました。

  1. Apache Hadoop
  2. Apache Hive
  3. Apache Spark
  4. Trino(PrestoSQL)
  5. Cloudera

Udemy

本と比べ、作成が新しいリソースが多い気がします。

タイトル カバー範囲 備考
The Ultimate Hands-On Hadoop: Tame your Big Data! Hadoopの概要、HDFS、MapReduce、Pig、Spark、Hive、HBase,Cassandra、MongoDB、Presto、Drill、Zookeeper、Zeppelin、Kafka… Hadoopのエコシステムを広く浅く説明する系。HortonworksのVirtualboxでハンズオン
Taming Big Data with Apache Spark and Python - Hands On! Sparkの概要・概念(RDD・Dataset等)、Spark Streaming、SparkML… Sparkのプログラミング入門
Hive to ADVANCE Hive (Real time usage) :Hadoop querying tool Hiveの概要、HQLの構文(JOINや関数)、パフォーマンス系(パーティション、バケット、変数など) 貴重なHiveの学習リソース

タイトル カバー範囲 出版 備考
Presto: The Definitive Guide Presto(Trino)のクエリ、概念(コネクタとか) 2020年 Hadoop界隈ではかなり新しい本。Starburst(Trinoのサポート・開発している会社)の人が著者
Learning Spark, 2nd Edition Sparkの入門(概念、環境設定など)、プログラミング、パフォーマンス(CacheとかJOIN)、Streaming、DataLake(DeltaLake連携とか)、機械学習(MLLib) 2020年 Hadoop界隈ではかなり新しい本。Databricksの人が著者
ビッグデータ分析基盤の構築事例集 Hadoopクラスター構築実践ガイド Hadoopの環境構築 2018年 日本語のHadoop本では新しい本。HPの人が著者。タイトル通り、Hadoopプログラミングというより環境構築に特化した本
アプリケーションエンジニアのためのApache Spark入門 Sparkの概要、Fluentd、Kafka、SparkStreaming、MLLib 2018年 日本語のHadoop本では新しい本
[増補改訂]ビッグデータを支える技術 Hadoop、Spark、Presto、Hiveの概要 2020年 Hadoopメインの本ではない気がしますが、他のビッグデータ系の話題(ワークフローエンジンやBI、OLAP)もまるっと載っていてわかりやすいです
Mastering Hadoop 3 HDFS、MapReduce、YARN、Spark、Pig… 2019 未読。Hadoop本体?を扱っている本では新しめ

クラウドサービス

サービス ドキュメント 備考
Amazon EMR https://aws.amazon.com/jp/emr/resources/ ドキュメントで機械翻訳なので、英語で読んだ方がわかりやすいと思う
Google Cloud Dataproc https://cloud.google.com/dataproc?hl=ja#section-5 日本語の情報更新が遅いので、英語でも確認した方がいい場合もある
Azure HDInsight https://azure.microsoft.com/ja-jp/services/hdinsight/#documentation そもそも日本語ドキュメント無い?
E-MapReduce https://jp.alibabacloud.com/help/doc-detail/28068.htm Alibaba CloudのHadoop環境

その他

優しい方から、Slideshareのスライドも教えていただきました

Discussion