pantyoのブログ

気ままに

Amazon EMR とは

Amazon EMR

= 分散処理のフレームワーク

分散処理基盤 と 分散処理アプリケーション で構成されている

分散処理基盤

EC2の調達・廃棄を行うリソース調整機能 → スポットインスタンスの仕組みをつかえるようになってる
S3を分散処理で扱うストレージとする機能 → EMRFS

分散処理アプリケーション基盤

分散処理を実現するアプリ
サポートアプリケーションか自前で用意したアプリを使う

サポートアプリケーション

Hadoop

Apache Spark
HBase 
Presto → Athenaエンジンもこれ
Flink

マスターノード、コアノード、タスクノードで構成されてる

  • マスターノード→親
  • コアノード→HDFS(Hadoop Distributed File System)をもつ
  • タスクノード→柔軟に増減できる