整套大数据学习资料(视频+笔记)百度网盘无门槛下载:http://www.edu360.cn/news/content?id=3377

1.4. Hadoop发展简史

hadoop 花牛 11℃ 0评论

Hadoop 是 Apache Lucene 创始人 Doug Cutting 创建的,Lucene 是一个应用 广泛的文本搜索系统库。Hadoop起源于开源的网络搜索引擎Apache Nutch,它本身也是Lucene项目的一部分。

Hadoop不是缩写,它是一个生造出来的词。Hadoop之父Doug Cutting 这样解释Hadoop的来历:“这个名字是我的小孩给他的毛绒象玩具取的。我的命名标准 是好拼读,含义宽泛,不会被用于其他地方。小孩子是这方面 的高手。Googol就是小孩子起的名字。”

Hadoop的子项目及后续模块所使用的名称也往往与其功能不相关,通常也以大象或其他动物为主题取名(例如Pig)。较小一些的组件,名称通常都有较好的描述性(因此也更流俗)。这个原则很好,意味着我们可以望文知义,例如jobtracker, —看就知道它是用来跟踪MapReduce作业的。

从头打造一个网络搜索引擎是一个雄心勃勃的计划,不只是因为写爬虫程序很复杂,更因为必须有一个专职团队来实现——项目中包含许许多多需要随时修改的活动部件。同时,构建这样的系统代价非常高——据Mike Cafarella 和Doug Cutting估计,一个支持10亿网页的索引系统,单是硬件上的投入 就高达50万美元,另外还有每月高达3万美元的运维费用。不过,他们 认为这个工作仍然值得投入,因为它开创的是一个优化搜索引擎算法的平台。

Nutch项目开始干2002年,一个可以运行的网页爬取工具和搜索引擎系统 很快面试。但后来,开发者认为这一架构的灵活性不够,不足以解决数十亿网页的搜索问题。一篇发表于2003年的论文为此提供了帮助,文中描述的是谷歌产品架构,该架构称为“谷歌分布式文件系统”,简称GFS。sGFS 或类似的架构,可以解决他们在网页爬取和索引过程中产生的超大文件的 存储需求。特别关键的是,GFS能够节省系统管理(如管理存储节点)所花的 大量时间。在2004年,他们开始着手做开源版本的实现,即Nutch分布式 文件系统(NDFS)。

2004年,谷歌发表论文向全世界介绍他们的MapReduce系统。@2005年 初,Nutch的开发人员在Nutch上实现了一个MapReduce系统,到年中, Nutch的所有主要算法均完成移植,用MapReduce和NDFS来运行。

Nutch的NDFS和MapReduce实现不只适用于捜索领域。在2006年2月, 开发人员将NDFS和MapReduce移出Nutch形成Lucene的一个子项目,命 名为Hadoop。大约在同一时间,Doug Cutting加入雅虎,雅虎为此组织了 专门的团队和资源,将Hadoop发展成能够处理Web数据的系统(参见后面 的补充材料“Hadoop在雅虎“)。在2008年2月,雅虎宣布,雅虎搜索引 擎使用的索引是在一个拥有1万个内核的Hadoop集群上构建的。® 2008年1月,Hadoop已成为Apache的顶级项目,证明了它的成功、多样 化和生命力。到目前为止,除雅虎之外,还有很多公司在用Hadoop,例如 Last.fm、Facebook和《纽约时报》等。第16章和Hadoop维基页面(英文) 介绍了一 些案例(http://wiki.apache.org/hadoop/PoweredBy)。

《纽约时报》的案例广为流传,他们把1851年到1980年的存档扫描之后 得到4TB的文件并用亚马逊的EC2云服务将文件存为PDF格式放到网h 共享。®整个过程一共使用了 100台计算机,所花的时间不到24小时。如果没有亚马逊的按小时付费模式(即允许《纽约时报》短期内访问大量机器) 和Hadoop好用的并发编程模型珠联璧合,这个项目不太可能这么快就启动 和完成。

2008年4月,Hadcwp打破世界纪录,成为最快的TB级数据排序系统。在 一个910节点的群集,Hadoop在209秒内(不到3.5分钟)完成了对1TB数 据的排序,击败了前一年的297秒冠军(详情参见15.5节的补充材料 “Apache Hadoop的TB级数据处理”)。同年11月,谷歌在报告中声称, 它的MapReduce对1 TB数据排序只用了 68秒。®2009年5月本书第1版 出版的时候,有报道称雅虎有一个的团队使用Hadoop对1 TB数据进行排 序只花了 62秒。

从那以后,Hadoop跃升为企业主流的部署系统。在工业界,Hadoop已经是 公认的大数据通用存储和分析平台,这一事实主要体现在大量直接使用或 者间接辅助Hadoop系统的产品如雨后春笋般大量涌现。一些大公司也发布 Hadoop发行版本,包括EMC,IBM, Microsft和Oracle以及一些专注于 Hadoop 的公司,如 Cloudera, Hortonworks和 MapR。

转载请注明:全栈大数据 » 1.4. Hadoop发展简史

喜欢 (0)or分享 (0)
发表我的评论
取消评论

表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址