• HDFS(Hadoop Distributed File System)は、Hadoopでファイルの管理を行っています。
  • HDFSがビッグデータを複数のコンピュータに分割して格納させますが、ユーザーからは一つのファイルを操作しているようにしか見えません。
  • 多数のディスクにデータを読み書きさせる事で処理の速度を向上し、障害にも強いシステムとなっています。

 

大規模データの読み込みに適しているHDFS

分散処理を行うHadoopで、ファイルの管理を担当するのがHDFS(Hadoop Distributed File System)です。
複数のノードにファイルを分割して格納しますが、ユーザーからは一つのファイルを扱うようにしか見えませんので、分割処理である事を意識する事はありません。

ビッグデータを高速で処理出来ますがデータを書き込むよりも読み込む方が得意なので、HDFSを効果的に使用するには、ファイルの書き込みをする回数を最低限に減らして、ファイルの読み込みを中心にするべきです。
大量のデータを蓄積して分析をするためにデータを読むDWHやBIツールを使用するのであれば、HDFSの性能を活かす事が出来ます。

 

 

 

高速の分散処理が可能で障害にも強いHDFS

HDFSが高速で分散処理出来るのは、

・数多くのディスクにアクセス出来る環境を構築する事で、処理の多重度を上げる
・出来るだけローカルディスク内のデータを活用する

といった工夫がされているからです。

これらの工夫は処理速度を向上させるだけではなく、ディスクに障害が発生するなどの障害対策にも役立っています。

 

 

 

本サイト上に掲載されているまとめ記事が、毎週ステップメールで受け取ることもできます。

 

参考文献