Open3
EMRちゃんと理解する
クラスターの構成
3種類のノードからなる。
いずれもスポットインスタンスの利用可能。
1️⃣ マスターノード
必ず存在するノード。
クラスター内のデータやタスクの分散度合を管理する。
1台 or マルチノード構成(3台)の2択。
あとから増減できない。
2️⃣ コアノード
タスクの実行 + HDFSへのデータ保存をするノード。
マルチノードクラスターだと、最低1台必要。
3️⃣ タスクノード
タスクの実行のみ、のノード。
なくてもOK。
ノードのグルーピング
ノードの種類ごとに
- ユニフォームインスタンスグループ
- インスタンスフリート
のいずれかの形でグルーピングされる。
1️⃣ ユニフォームインスタンスグループ
グループ内の全ノードで、
- 購入オプション
- インスタンスタイプ
- EBSストレージ
に同じ設定が適用されるタイプ。
グループ内のノードの増減、グループ自体の増減可否は、ノードの種類によって異なる。
種類 | ノードの増減 | グループの増減 |
---|---|---|
マスターインスタンスグループ | ☓ | ☓ |
コアインスタンスグループ | ○ | ☓ |
タスクインスタンスグループ | ○ | ○ |
2️⃣ インスタンスフリート
同一のグループ内で、
- 購入オプション
- インスタンスタイプ
を組み合わせられるタイプ。
EMRが最適な構成をマネージドでプロビジョニングしてくれる。
EMR上で動作する分析ソフトウェア
Serverlessでない版
HiveやSpark, Prestoをはじめ、相当数が利用可能。
Serverless
20220716現在
- Hive (大規模のバッチ処理向き)
- Spark (インタラクティブクエリ向き)
のみ利用可