整套大数据学习资料(视频+笔记)百度网盘无门槛下载:http://www.edu360.cn/news/content?id=3377

 分类:hadoop

12.1 安装Hive

Hive —般在工作站上运行。它把SQL查询转换为一系列在Hadoop集群上 运行的MapReduce作业。Hive把数据组织为表,通过这种方式为存储在 HDFS的数据赋予结构。元数据(如表模式)存储在metastore数据库中。 刚开始使用Hive时,为了方便,可以让metas...

10℃ 0评论

13.7.5计数器

在StumbleUpon,第一个在HBase上部署的产品特性是为stumbleupon.com前端维护计数器。计数器以前存储在MySQL中,但计 数器的更新太频繁,计数器所导致的写操作太多,所以Web设计者必须对 计数值进行限定。使用org.apache.h...

10℃ 0评论

13.7.4 模式的设计

单元格是有版本的;数据行是有序的,只要列族存在,列便可以由客户端 随时添加;除了这三个特性以外,HBase的表和RDBMS中的表是类似的。 虽然在为HBase设计模式时,需要考虑这呰不同点,但最重要的是要考虑 数据的访问方式。所有的数据都是通过主键进行访问的...

9℃ 0评论

第十二章 关于Hive

在“信息平台和数据科学家的崛起” ®(Information Platforms and the Rise of the Data Scientist)—文中,Jeff Hammerbacher把“信息平台”描述为“企业摄取 (ingest)、处理(process)、生成(ge...

11℃ 0评论

13.7.3度量

Hadoop有一个度量(metric)系统。可以用它每过一段时间获取系统重要组件 的信息,并输出到上下文(context),详情参见10.2.2节。启用Hadoop度量 系统,并把它捆绑入Ganglia或导出到JMX,就能得到集群上正在做和刚才做的事情的视图...

10℃ 0评论

13.7.2用户界面

HBase在主控机上运行了一个Web服务器,它能提供运行中集群的状态视图。在默认情况下,它监听60010端口。主界面显示了基本的属性(包括软件版本、集群负载、请求频率、集群表的列表)和加入的regiotiserver等。 在主界面上单击选中regionserver会把你...

10℃ 0评论

13.7.1 版本

一直到HBase 0.20,HBase的版本都对应于Hadoop的版本。某个版本的HBase能够和任何“小版本”(minor version)相同的Hadoop共同运行。小版本就是两个小数点之间的数字(如,HBase 0.20.5的小版本是20)。H...

11℃ 0评论

13.6.3 实例:HBase 在 Streamy.com 的使用

Streamy.com是一个实时新闻聚合器和社会化分享平台。它有很多功能特 性。我们最早是在PostgreSQL上开始的,实现很复杂。PostgreSQL是一个 很棒的产品,社区支持很好,代码很漂亮。我们尝试了教材中所有可以在扩展时提速的技巧,甚至为了适应我们...

14℃ 0评论

13.6.2 HBase

让我们考虑HBase,它具有以下特性。 •没有真正的索引行是顺序存储的,每行中的列也是,所以不存在 索引膨胀的问题,而且插入性能和表的大小无关。 •自动分区在表增长的时候,表会自动分裂成区域,并分布到可用 的节点上。 •线性扩展和对于新节点的自动处理增加一个节...

9℃ 0评论

13.6.1成功的服务

这里将简单介绍一个典型的RDBMS如何进行扩展。下面给出一个成功服务从小到大的生长过程。 (1) 服务首次提供公开访问。 将服务从本地工作站迁移到拥有良好模式定义的、共享的远程MySQL实例上。  (2) 服务越来越受欢迎;数据库收到太多的读请求。 ...

13℃ 0评论

13.5 HBase 和 RDBMS 的比较

HBase和其他面向列的数据库常常被拿来和更流行的传统关系数据库(或简 写为RDBMS)进行比较。虽然它们在实现和设计上的出发点有着较大的区别,但它们都力图解决相同的问题。所以,虽然它们有很多不同点,但我 们仍然能够对它们进行客观的比较。 如前所述,HBase是一个分布...

12℃ 0评论

13.5.3 Web 查询

为了实现Web应用,我们将直接使用HBase的Java API。在这里,我们将 深刻体会到选择模式和存储格式的重要性。 最简单的査询就是获取静态的观测站信息。这一类査洵在传统数据库中也 很简单,但HBase提供了额外的控制功能和灵活性。我们把info...

11℃ 0评论

13.5.2加载数据

观测站的数量相对较少,所以我们可以使用任何.种接口来插入这些观测站的静态数据。 但是,假设我们要加载数十亿条观测数据。这种数据导入是一个极为复杂 的过程,是一个需要长时间运行的数据库操作。MapReduce和HBase的分布式模型让我们可以充分利用集群。通过把原始输入数...

13℃ 0评论

13.5.1模式

在我们的示例中,有两个表。 1. stations 表 这个表包含观测站数据。行的键是stationid。这个表还有一个列族info,它能作为键/值字典来支持对观测站信息的査找。字典的键就是列名 info:name、info:location以及 i...

12℃ 0评论

9.8云端的Hadoop

尽管许多机构自建集群来运行Hadoop,在租赁的硬件上所搭建的云端运行 Hadoop,或提供Hadoop服务仍然很流行。例如,Cloudera提供在公共(或 私有)云端运行Hadoop的工具(参见附录B); Amazon提供Hadoop云服 务,名为 Elastic MapRe...

14℃ 0评论