- Amazon EMRを有効に使うには、クラスタやタスクノードの使い方を工夫する必要があります。
- クラスタは一時的クラスタと永続的クラスタに分類出来ますが、
・データのロード時間
・処理時間
・ジョブ数
によって、適切なクラスタを使用する事が大切です。 - 必要な時だけタスクノードを使うようにするとコストを削減し、パフォーマンスの向上が期待出来ます。
Amazon EMRを有効に使う方法
Amazon EMRを有効に使うデザインパターンとして、
・一時的クラスタと永続的クラスタを使い分ける
・タスクノードの使い方を工夫する
などの方法が考えられます。
一時的クラスタと永続的クラスタ
ジョブが実行している間だけ動作しているが一時的クラスタで、ジョブに関係なく動作し続けるのが永続的クラスタです。
一時的クラスタは、
・立ち上がっている期間が短いので、コストを節約出来る
・運用の手間が掛からない
などのメリットがあります。
永続的クラスタには、
・複数のジョブで、データを共有出来る
・一時的クラスタを何回も立ち上げて使うよりも、コストを削減出来る場合がある
などのメリットがあります。
・データのロード時間
・処理時間
・ジョブ数
などを調べて、どのようにAmazon EMRを使うのかを決める必要があります。
タスクノードのさまざまな活用例
Amazon EMRは、
・クラスタを管理するマスターノード
・HDFSを使ってデータを格納するコアノード
・タスクを実行するタスクノード
から構成されますが、タスクノードの使い方を工夫する事でコストを削減出来たり、パフォーマンスの向上が期待出来ます。
・スポットインスタンスの活用
スポットインスタンス上でタスクノードを動かせば、コストを節約出来ます。
・大量のタスクノードを使う
S3からHDFSにデータをアップロードする時に、スポットインスタンス上に大量のタスクノードを動かす事で、効率的なアップロードが可能となります。
本サイト上に掲載されているまとめ記事が、毎週ステップメールで受け取ることもできます。
参考文献