• Amazon EMRの基本的な利用手順:
    ・入出力データ・データ格納領域をS3等に用意
    ・クラスターの起動
    ・Hiveスクリプトを実行する
    ・Hue を使ってクエリを送信する
  • EMRを利用した後は、
    ・Amazon S3のバケットの削除
    ・Amazon EMRクラスターの終了
    を行って、追加の料金が発生しないようにします。

 

EMRの基本的な利用手順

EMRの基本的な利用手順は、次のようなものです。
EMRの入門者でも、比較的容易に操作する事が出来ます。

入出力データ・データ格納領域をS3等に用意
Amazon S3 を使って、Amazon EMRに入出力データやログファイルなどを格納出来ます。
S3コンソールを開きパケット名とデータのあるパス等を指定する事で、S3パケットを作成します。

クラスターの起動
Amazon EMRコンソールを開き、ソフトウェア・ファイルシステム・ハードウェア等の設定を行ってから、クラスターを作成します。

Hiveスクリプトを実行する
Amazon EMRコンソールを使って、Hiveスクリプトを実行します。
Hiveスクリプトをステップとして送信する事で、出力を確認する事が出来ます。
S3コンソールを開いて、出力したパケットのフォルダ内の出力ファイルで確認します。

Hue を使ってクエリを送信する
Hadoop用オープンソースウェブユーザーインターフェイスであるHueにログインして、クエリを送信します。
Hueを使う事で簡単にクエリを送信したり、スクリプトが作成出来るようになります。

 

 

 

EMRを使用した後の処理

EMRを使用した後は追加料金が発生しないように、不要なリソースは削除しなくてはなりません。

Amazon S3のバケットの削除
Amazon S3 コンソールを使えば、選択したオブジェクトを削除出来ます。

Amazon EMRクラスターの終了
Amazon EMRクラスターを終了するには、Amazon EMRコンソールを開いてCluster Listページで終了したいクラスターのチェックボックスをオンにして、Terminateを選択します。

 

 

 

 

本サイト上に掲載されているまとめ記事が、毎週ステップメールで受け取ることもできます。

 

参考文献