🐘
令和時代のHadoop(関連)学習リソース
※記述の簡略化のためでは、Hadoop(MapReduce、HDFS?)+Hadoopに関連するエコシステム(Hive、Tez、Ozone、Spark…)を引っくるめてHadoopと書きます
Hadoopの登場から早15年。かっての綺羅びやかな響きは既に去り、Clouderaが「end of the Hadoop era」なんて言ってしまう時代です。
それでも、Hadoop環境がペイできるほど大規模だったり、既存システムがHadoopだったりで、これからHadoopをキャッチアップする人もいるでしょう。
そんな人が、令和時代にHadoopをキャッチアップしようとして直面するのが、
情報が少ねえ…
正確には
(新しい)(日本語の)(入門向けの)情報が少ねえ…
という問題でしょう。
そんなわけで、令和時代のHadoopの入門に使えそうなリソースを集めてみました。
他にこういうリソースあるよとか、このリソース駄目だよとかあればコメントお願いします(※)!
※ Yahoo! Japanさんとか、LINEさんとか、Treasure Dataさんとかどうしているのだろう…
公式サイト
公式サイトやソースコードを最初に見る習慣があるのが、強いエンジニアの証だってボブが言ってました。
Udemy
本と比べ、作成が新しいリソースが多い気がします。
タイトル | カバー範囲 | 備考 |
---|---|---|
The Ultimate Hands-On Hadoop: Tame your Big Data! | Hadoopの概要、HDFS、MapReduce、Pig、Spark、Hive、HBase,Cassandra、MongoDB、Presto、Drill、Zookeeper、Zeppelin、Kafka… | Hadoopのエコシステムを広く浅く説明する系。HortonworksのVirtualboxでハンズオン |
Taming Big Data with Apache Spark and Python - Hands On! | Sparkの概要・概念(RDD・Dataset等)、Spark Streaming、SparkML… | Sparkのプログラミング入門 |
Hive to ADVANCE Hive (Real time usage) :Hadoop querying tool | Hiveの概要、HQLの構文(JOINや関数)、パフォーマンス系(パーティション、バケット、変数など) | 貴重なHiveの学習リソース |
本
タイトル | カバー範囲 | 出版 | 備考 |
---|---|---|---|
Presto: The Definitive Guide | Presto(Trino)のクエリ、概念(コネクタとか) | 2020年 | Hadoop界隈ではかなり新しい本。Starburst(Trinoのサポート・開発している会社)の人が著者 |
Learning Spark, 2nd Edition | Sparkの入門(概念、環境設定など)、プログラミング、パフォーマンス(CacheとかJOIN)、Streaming、DataLake(DeltaLake連携とか)、機械学習(MLLib) | 2020年 | Hadoop界隈ではかなり新しい本。Databricksの人が著者 |
ビッグデータ分析基盤の構築事例集 Hadoopクラスター構築実践ガイド | Hadoopの環境構築 | 2018年 | 日本語のHadoop本では新しい本。HPの人が著者。タイトル通り、Hadoopプログラミングというより環境構築に特化した本 |
アプリケーションエンジニアのためのApache Spark入門 | Sparkの概要、Fluentd、Kafka、SparkStreaming、MLLib | 2018年 | 日本語のHadoop本では新しい本 |
[増補改訂]ビッグデータを支える技術 | Hadoop、Spark、Presto、Hiveの概要 | 2020年 | Hadoopメインの本ではない気がしますが、他のビッグデータ系の話題(ワークフローエンジンやBI、OLAP)もまるっと載っていてわかりやすいです |
Mastering Hadoop 3 | HDFS、MapReduce、YARN、Spark、Pig… | 2019 | 未読。Hadoop本体?を扱っている本では新しめ |
クラウドサービス
サービス | ドキュメント | 備考 |
---|---|---|
Amazon EMR | https://aws.amazon.com/jp/emr/resources/ | ドキュメントで機械翻訳なので、英語で読んだ方がわかりやすいと思う |
Google Cloud Dataproc | https://cloud.google.com/dataproc?hl=ja#section-5 | 日本語の情報更新が遅いので、英語でも確認した方がいい場合もある |
Azure HDInsight | https://azure.microsoft.com/ja-jp/services/hdinsight/#documentation | そもそも日本語ドキュメント無い? |
E-MapReduce | https://jp.alibabacloud.com/help/doc-detail/28068.htm | Alibaba CloudのHadoop環境 |
その他
- Trino Community Broadcast:Starburstの人がTrinoに関するPodcastを公開してくれています
- Clouderaのコース:私は受講していないですが、経験者の方からオススメされました
優しい方から、Slideshareのスライドも教えていただきました
Discussion