分散コンピューティング環境を生かして、スーパーコンピュータなどを利用しなくても、ビックデータと呼ばれるような大規模なデータ処理を身近なものにしたものが「Hadoop」ですが、昨年くらいから、Hadoopを置き換えるようなものとして、「Apache Spark」をよく耳にするようになっているのではないかと思います。

ただ、Apache SparkはHadoopを置き換えるものなのか、Hadoopをあくまでベースとしながら組み合わせて使うものなのか、どのような場合にApache Sparkを使うメリットがあるのか、などわかりにくかったりするかと思います。

 

知らないと大損する、Apache Sparkの基礎知識と3つのメリット

 

この記事などは、Apache Sparkとはどのような技術で、Hadoopと対比としてどのようなものなのか、どのような場合に使用するメリットがあるのか、わかりやすくまとまっている記事ではないかと思います。

上記の記事でも、インタビューされている二人のうちの一人は日本IBMの方ですが、下記の解説は日本IBMのプロモーション記事ですが、Apache Sparkに対して企業の対応も進んできていることがうかがえます。

新しいビッグデータ分析基盤「Apache Spark」登場の背景と、押さえておきたい活用ポイント

 

具体的な実装手順を示してくれて、どのようなものかを解説してくれている記事ということだと、やはりQiitaによく掲載されていますが、Apache Sparkに関するものだと、下記などよいかもしれません。

Apache Sparkを勉強して分散処理できますよ!って言えるようになる

 

 

事例のプレゼンテーションを見ると具体的なイメージがわきやすく、理解が進む面がありますが、AWS上でSparkなどを使った例としては、実際にHadoopやSparkを使ってゲームのデータ分析基盤を構築された下記などがおすすめです。