- SparkはDirected Acyclic Graph実行エンジンを使用し、データをメインメモリにキャッシュする事で、高速で分散処理が可能にしています。
- Sparkのその他の特徴:
・インタラクティブモードとバッチモードが実行出来る
・インストールされた状態でのクラスターの起動が可能
高速で分散処理が出来るSpark
SparkはHadoopと同じようにビッグデータを処理するための分散処理システムですが、Hadoopよりも高速に処理出来るように、
・Directed Acyclic Graph実行エンジンの使用
・データをメインメモリにキャッシュ
などの工夫がされています。
そのため、Hadoopでは高速に処理出来ないアルゴリズムやインタラクティブクエリでも、Sparkなら高速で処理する事が可能です。
Sparkのインタラクティブモードとバッチモード
AWS EMRでは、Sparkのアプリケーションをインタラクティブモードとバッチモードで実行出来ます。
インタラクティブモード
Sparkをインタラクティブモードで実行する事で、Spark用アプリケーションの開発が用意になります。
バッチモード
SparkスクリプトをAmazon S3やローカルマスターノードファイルシステムにアップロードする事で、Sparkをバッチモードで実行出来ます。
Sparkがインストールされた状態でのクラスターの起動
既にSparkがインストールされた状態で、AWS EMRクラスターを起動するには、Amazon EMR コンソールを開いてCreate clusterを選択して、Software ConfigurationやApplications to be installedの内容を設定します。
そして、Addを選ぶ事でクラスターが作られて、起動します。
EMR コンソールを使う以外に、
・AWS CLI
・AWS SDK for Java
などを使っても、Spark がインストールされた状態でクラスターを起動出来ます。
本サイト上に掲載されているまとめ記事が、毎週ステップメールで受け取ることもできます。
参考文献