- ストリーミングデータのロードや分析が手軽に出来るAmazon Kinesisのデータを取り込むには、Amazon EMRを利用するのが最適です。
- Amazon EMRを使えば、特別なアプリケーションを開発しなくても、Hive、Pig、MapReduce、Hadoop Streaming API、CascadingといったHadoopエコシステムで使うツールでデータを読み込む事が可能となります。
- Amazon KinesisとAmazon EMRを統合する事で、
・ストリーミングのウェブログの分析
・Amazon Kinesis のクリックストリームデータと DynamoDB テーブル内の広告キャンペーン情報の結合
・定期的にAmazon Kinesis ストリームから HDFSへのデータの取り込み
などが出来ます。
Amazon Kinesisからデータを取り込む方法
ストリーミングデータのロードや分析が手軽に出来るAmazon Kinesisからデータを取り込んで処理するアプリケーションを開発するには、デプロイやメンテナンスなどが必要となりますが、Amazon EMRを利用すればHive、Pig、MapReduce、Hadoop Streaming API、Cascading などのツールを使って、簡単にKinesisストリームの分析が出来ます。
ただし、Amazon EMRはKinesisストリームを読み込むだけで、書き戻しする事は出来ません。
Amazon KinesisとEMRの統合
AWSのKinesisとEMRを統合すると、
・ストリーミングのウェブログを分析して各種リストの生成
・Amazon Kinesis のクリックストリームデータと DynamoDB テーブル内の広告キャンペーン情報を結合して、どのような広告カテゴリが効果的なのかを調査
・定期的にAmazon Kinesis ストリームから HDFSにデータを取り込んで、高速でインタラクティブな分析
などが行えます。
本サイト上に掲載されているまとめ記事が、毎週ステップメールで受け取ることもできます。
参考文献