- Amazon EMRの基本的な利用手順:
・入出力データ・データ格納領域をS3等に用意
・クラスターの起動
・Hiveスクリプトを実行する
・Hue を使ってクエリを送信する - EMRを利用した後は、
・Amazon S3のバケットの削除
・Amazon EMRクラスターの終了
を行って、追加の料金が発生しないようにします。
EMRの基本的な利用手順
EMRの基本的な利用手順は、次のようなものです。
EMRの入門者でも、比較的容易に操作する事が出来ます。
入出力データ・データ格納領域をS3等に用意
Amazon S3 を使って、Amazon EMRに入出力データやログファイルなどを格納出来ます。
S3コンソールを開きパケット名とデータのあるパス等を指定する事で、S3パケットを作成します。
クラスターの起動
Amazon EMRコンソールを開き、ソフトウェア・ファイルシステム・ハードウェア等の設定を行ってから、クラスターを作成します。
Hiveスクリプトを実行する
Amazon EMRコンソールを使って、Hiveスクリプトを実行します。
Hiveスクリプトをステップとして送信する事で、出力を確認する事が出来ます。
S3コンソールを開いて、出力したパケットのフォルダ内の出力ファイルで確認します。
Hue を使ってクエリを送信する
Hadoop用オープンソースウェブユーザーインターフェイスであるHueにログインして、クエリを送信します。
Hueを使う事で簡単にクエリを送信したり、スクリプトが作成出来るようになります。
EMRを使用した後の処理
EMRを使用した後は追加料金が発生しないように、不要なリソースは削除しなくてはなりません。
Amazon S3のバケットの削除
Amazon S3 コンソールを使えば、選択したオブジェクトを削除出来ます。
Amazon EMRクラスターの終了
Amazon EMRクラスターを終了するには、Amazon EMRコンソールを開いてCluster Listページで終了したいクラスターのチェックボックスをオンにして、Terminateを選択します。
本サイト上に掲載されているまとめ記事が、毎週ステップメールで受け取ることもできます。
参考文献