- HDFS(Hadoop Distributed File System)は、Hadoopでファイルの管理を行っています。
- HDFSがビッグデータを複数のコンピュータに分割して格納させますが、ユーザーからは一つのファイルを操作しているようにしか見えません。
- 多数のディスクにデータを読み書きさせる事で処理の速度を向上し、障害にも強いシステムとなっています。
大規模データの読み込みに適しているHDFS
分散処理を行うHadoopで、ファイルの管理を担当するのがHDFS(Hadoop Distributed File System)です。
複数のノードにファイルを分割して格納しますが、ユーザーからは一つのファイルを扱うようにしか見えませんので、分割処理である事を意識する事はありません。
ビッグデータを高速で処理出来ますがデータを書き込むよりも読み込む方が得意なので、HDFSを効果的に使用するには、ファイルの書き込みをする回数を最低限に減らして、ファイルの読み込みを中心にするべきです。
大量のデータを蓄積して分析をするためにデータを読むDWHやBIツールを使用するのであれば、HDFSの性能を活かす事が出来ます。
Hadoop概要説明 from 諭 能登
高速の分散処理が可能で障害にも強いHDFS
HDFSが高速で分散処理出来るのは、
・数多くのディスクにアクセス出来る環境を構築する事で、処理の多重度を上げる
・出来るだけローカルディスク内のデータを活用する
といった工夫がされているからです。
これらの工夫は処理速度を向上させるだけではなく、ディスクに障害が発生するなどの障害対策にも役立っています。
本サイト上に掲載されているまとめ記事が、毎週ステップメールで受け取ることもできます。
参考文献