整套大数据学习资料(视频+笔记)百度网盘无门槛下载:http://www.edu360.cn/news/content?id=3377

1.5. Apache Hadoop 和 Hadoop 生态系统

hadoop 花牛 12℃ 0评论

尽管Hadoop因MapReduce及其分布式文件系统(HDFS,由NDFS改名而来) 而出名,但Hadoop这个名字也用于泛指一组相关的项目,这些相关项目都使用这个基础平台进行分布式计算和海量数据处理。

本系列文章提到的项目都受Apache软件基金会支持,该基金会对开源软件项目社区提供支持,包括最初的HTTP Server项目。随着Hadoop生态系统的成长,新出现的项目越来越多,其中不乏一些非Apache主管的项目,这些项目对Hadoop是很好的补充或提供一些更髙层的抽象。

下面简单提一下本书所提到的Hadoop项目:

  • Common:—系列组件和接口,用于分布式文件系统和通用I/O(序列化、Java RPC和持久化数据结构)

  • Avro: —种序列化系统,用于支持高效、跨语言的RPC和持久化数据存储

  • MapReduce:分布式数据处理模型和执行环境,运行于大型商用机集群

  • HDFS:分布式文件系统,运行干大型商用机集群

  • Pig:数据流语言和运行环境,用以探究非常庞大的数据集。Pig运行在MapReduce和HDFS集群上

  • Hive: —种分布式的、按列存储的数据仓库。Hive管理HDFS中存储的数据,并提供基于SQL的査询语言(由运行时引擎翻译成 MapReduce作业)用以査询数据

  • HBase: —种分布式的、按列存储的数据库。HBase使用HDFS作为底层存储,同时支持MapReduce的批量式计算和点查询(随机 读取)

  • ZooKeeper: —•种分布式的、可用性高的协调服务。ZooKeeper堤 供分布式锁之类的基本服务用于构建分布式应用

  • Sqoop:该工具用于在结构化数据存储(如关系型数据库)和HDFS 之间高效批量传输数据

  • Oozie:该服务用于运行和调度Hadoop作业(如MapReduce, Pig, Hive 及 Sqoop 作业)

转载请注明:全栈大数据 » 1.5. Apache Hadoop 和 Hadoop 生态系统

喜欢 (0)or分享 (0)
发表我的评论
取消评论

表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址