• ストリーミングデータのロードや分析が手軽に出来るAmazon Kinesisのデータを取り込むには、Amazon EMRを利用するのが最適です。
  • Amazon EMRを使えば、特別なアプリケーションを開発しなくても、Hive、Pig、MapReduce、Hadoop Streaming API、CascadingといったHadoopエコシステムで使うツールでデータを読み込む事が可能となります。
  • Amazon KinesisとAmazon EMRを統合する事で、
    ・ストリーミングのウェブログの分析
    ・Amazon Kinesis のクリックストリームデータと DynamoDB テーブル内の広告キャンペーン情報の結合
    ・定期的にAmazon Kinesis ストリームから HDFSへのデータの取り込み
    などが出来ます。

 

Amazon Kinesisからデータを取り込む方法

ストリーミングデータのロードや分析が手軽に出来るAmazon Kinesisからデータを取り込んで処理するアプリケーションを開発するには、デプロイやメンテナンスなどが必要となりますが、Amazon EMRを利用すればHive、Pig、MapReduce、Hadoop Streaming API、Cascading などのツールを使って、簡単にKinesisストリームの分析が出来ます。

ただし、Amazon EMRはKinesisストリームを読み込むだけで、書き戻しする事は出来ません。

 

 

 

Amazon KinesisとEMRの統合

AWSのKinesisとEMRを統合すると、

・ストリーミングのウェブログを分析して各種リストの生成
・Amazon Kinesis のクリックストリームデータと DynamoDB テーブル内の広告キャンペーン情報を結合して、どのような広告カテゴリが効果的なのかを調査
・定期的にAmazon Kinesis ストリームから HDFSにデータを取り込んで、高速でインタラクティブな分析

などが行えます。

 

 

 

 

本サイト上に掲載されているまとめ記事が、毎週ステップメールで受け取ることもできます。

 

 

参考文献