• Amazon EMRを有効に使うには、クラスタやタスクノードの使い方を工夫する必要があります。
  • クラスタは一時的クラスタと永続的クラスタに分類出来ますが、
    ・データのロード時間
    ・処理時間
    ・ジョブ数
    によって、適切なクラスタを使用する事が大切です。
  • 必要な時だけタスクノードを使うようにするとコストを削減し、パフォーマンスの向上が期待出来ます。

 

Amazon EMRを有効に使う方法

Amazon EMRを有効に使うデザインパターンとして、

・一時的クラスタと永続的クラスタを使い分ける
・タスクノードの使い方を工夫する

などの方法が考えられます。

 

一時的クラスタと永続的クラスタ

ジョブが実行している間だけ動作しているが一時的クラスタで、ジョブに関係なく動作し続けるのが永続的クラスタです。

一時的クラスタは、
・立ち上がっている期間が短いので、コストを節約出来る
・運用の手間が掛からない
などのメリットがあります。

永続的クラスタには、
・複数のジョブで、データを共有出来る
・一時的クラスタを何回も立ち上げて使うよりも、コストを削減出来る場合がある
などのメリットがあります。

・データのロード時間
・処理時間
・ジョブ数
などを調べて、どのようにAmazon EMRを使うのかを決める必要があります。

 

 

 

 

タスクノードのさまざまな活用例

Amazon EMRは、
・クラスタを管理するマスターノード
・HDFSを使ってデータを格納するコアノード
・タスクを実行するタスクノード
から構成されますが、タスクノードの使い方を工夫する事でコストを削減出来たり、パフォーマンスの向上が期待出来ます。

・スポットインスタンスの活用
スポットインスタンス上でタスクノードを動かせば、コストを節約出来ます。

・大量のタスクノードを使う
S3からHDFSにデータをアップロードする時に、スポットインスタンス上に大量のタスクノードを動かす事で、効率的なアップロードが可能となります。

 

 

 

本サイト上に掲載されているまとめ記事が、毎週ステップメールで受け取ることもできます。

 

 

参考文献