整套大数据学习资料(视频+笔记)百度网盘无门槛下载:http://www.edu360.cn/news/content?id=3377

第十二章 关于Hive

hadoop 小红牛 11℃ 0评论

在“信息平台和数据科学家的崛起”
®(Information Platforms and the Rise of the Data Scientist)—文中,Jeff
Hammerbacher把“信息平台”描述为“企业摄取
(ingest)、处理(process)、生成(generate)信息的行为”与“帮助加速从经验 数据中学习”的“中心”。

在Facebook,
Jeff团队所构建的信息平台中,最庞大的组成部分是Hive。 Hive是一个构建在Hadoop上的数据仓库框架,是应Facebook每天产生的
海量新兴社会网络数据进行管理和(机器)学习的需求而产生和发展的。在尝
试了不同系统之后,团队选择Hadoop来存储和处理数据,因为Hadoop的 性价比髙,同时还能够满足他们的可伸缩性要求。®

Hive的设计目的是让精通SQL技能(但Java编程技能相对较弱)的分析师能 够对Facebook存放在HDFS中的大规模数据集执行査询。今天,Hive已经 是一个成功的Apache项目,很多组织把它用作一个通用的、可伸缩的数据处 理平台。

当然,SQL并不是所有大数据问题的理想工具。例如,它并不适合用来开
发复杂的机器学习算法。但它对很多分析任务非常有用,而且它的另一个 优势是业内人士都非常熟悉它。此外,SQL是商业智能工具的“通用语
言”(可以通过ODBC这一桥梁来用),Hive有条件和这些产品进行集成。

本章介绍如何使用Hive。我们假设你用过SQL和常见的数据库体系结构。 在介绍Hive特性的同时,我们会经常将这些特性与其传统RDBMS对应部 分进行比较。

转载请注明:全栈大数据 » 第十二章 关于Hive

喜欢 (0)or分享 (0)
发表我的评论
取消评论

表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址