整套大数据学习资料(视频+笔记)百度网盘无门槛下载:http://www.edu360.cn/news/content?id=3377

第三章 Hadoop分布式文件系统

hadoop 花牛 10℃ 0评论

Hadoop分布式文件系统

当数据集的大小超过一台独立的物理计算机的存储能力时,就有必要对它 进行分区(partition)并存储到若干台单独的计算机上。管理网络中跨多台计 算机存储的文件系统称为分布式文件系统(distributed filesystem)。该系统架 构于网络之上,势必会引入网络编程的复杂性,因此分布式文件系统比普 通磁盘文件系统更为复杂。例如,使文件系统能够容忍节点故障且不丢失任何数据,就是一个极大的挑战。

Hadoop 有一个称为 HDFS 的分布式系统,即 Hadoop Distributed Filesystem。 在非正式文档或旧文档以及配置文件中,有时也简称为DFS,它们是一回 事儿。HDFS是Hadoop的旗舰级文件系统,同时也是本章的重点,但实际 上Hadoop是一个综合性的文件系统抽象,因此下面我们也将看到Hadoop 集成其他文件系统的方法(如本地文件系统和Amazon S3系统)。

转载请注明:全栈大数据 » 第三章 Hadoop分布式文件系统

喜欢 (0)or分享 (0)
发表我的评论
取消评论

表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址