Open3
Hadoop YARNについて学ぶ

package manager のほうでなく、Hadoop エコシステムのほうのYarnについて学びたい。

まずYARNとは。YARNはクラスタリソースをよしなに管理しながら、各データ処理フレームワークのジョブを実行するためのリソースを提供してくれるResource Managerのこと。Yet Another Resource Negotiator.
YARN登場の背景については、こちらの記事がわかりやすかった。
要するに、データ処理を行うためにはそのための計算リソースが必要なんだけど、データ処理フレームワークが増えたことにより、リソース管理が煩雑になるという課題があった。
例えば、処理フレームワークごとにリソースを分離するというアイデアがあったわけだけど、これは独立して処理を稼働できるという利点の反面、同じデータを処理ごとに複製する必要があり、データ管理の煩雑さやデータ運用にかかる手間といったコストが生まれてしまっていた。
一方で、同じ計算リソース上で複数のデータ処理系を稼働させるというアイデアでは上記の課題は払拭できるが、各データ処理系は計算リソースについて把握・管理できないので、リソースの利用効率が落ちてしまうという課題があった。
そこで生まれたのがYARNである。YARNに計算リソースの管理を一元的にまかせ、データ処理フレームワークは、自分たちの処理に必要なリソースだけを得ることができる。データ管理の煩雑さとリソースの利用効率という双方の課題を解決してしまうのだ。