整套大数据学习资料(视频+笔记)百度网盘无门槛下载:http://www.edu360.cn/news/content?id=3377

 分类:hadoop

12.6.3 存储格式

Hive从两个维度对表的存储进行管理:“行格式”(row format)和“文件格 式”(file format)。行格式指行和一行中的字段如何存储。按照Hive的术 语,行格式的定义由SerDe定义。SerDe是“序列化和反序列化工具” (Serializer-Deseria...

12℃ 0评论

12.6.2 分区和桶

Hive把表组织成“分区”(partition)。这是一种根据“分区列”(partition column,如日期)的值对表进行粗略划分的机制。使用分区可以加快数据 分片(slice)的査询速度。 表或分区可以进一步分为“桶”(bucket)。它会为数据提供额外的结构以获 得更高...

10℃ 0评论

14.5.2 配置

ZooKeeper服务器的集合体中,每个服务器都有一个数值型的ID,服务器 ID在集合体中是唯一的,并且取值范围在1到255之间。可以通过一个名 为的纯文本文件设定服务器的ID,这个文件保存在dataDir参数所 指定的目录中。 为每台服务器设置ID...

12℃ 0评论

12.6.1 托管表和外部表

在Hive中创建表时,默认情况下Hive负责管理数据。这意味着Hive把数据移入它的“仓库目录”(warehouse directory)。另一种选择是创建一个“外部表”(external table)。这会让Hive到仓库目录以外的位置访问数据。 这两种表的区别表现在LOAD和...

11℃ 0评论

14.5生产环境中的ZooKeeper 14.5.1可恢复性和性能

  在生产环境中,应当以复制模式运行ZooKeeper。在这里,我们将讨论使用 ZooKeeper服务器的集合体时需要考虑的一些问题。但是本节的内容不够详尽,建议参考《ZooKeeper管理员指南》获得详细的最新操作指南,包括支持的平台、推荐的硬件...

11℃ 0评论

12.6 表

Hive的表在逻辑上由存储的数据和描述表中数据形式的相关元数据组成。 数据一般存放在HDFS中,但它也可以放在其他任何Hadoop文件系统中, 包括本地文件系统或S3。Hive把元数据存放在关系数据库中,而不是放在 HDFS中,详情参见12.2.3节对metastore的讨论。...

11℃ 0评论

14.4.4更多分布式数据结构和协议

使用ZooKeeper可以实现很多不同的分布式数据结构和协议,例如“屏 障”(barrier)、队列和两阶段提交协议。有趣的是它们都是同步协议,但我 们可以使用异步ZooKeeper基本操作(如通知)来实现它们。 ZooKeeper 网站apac/je.org...

10℃ 0评论

12.5.2 操作与函数

Hive提供了普通SQL操作,包括:关系操作(例如等值判断x =’a’,空值 判断x IS NULL,模式匹配x LIKE 'a%’),算术操作(例如加法x+1),以 及逻辑操作(例如逻辑或(OR) x OR y))。这些操作和MySQL的操作一样, 而和SQL-92不...

10℃ 0评论

12.5.1 数据类型

Hive支持原子和复杂数据类型。原子数据类型包括数值型、布尔型、字符 串类型和时间戳类型。复杂数据类型包括数组、映射和结构。Hive的数据 类型在表12-3中列出。注意,列出的是它们在HiveQL中使用的形式而不 是它们在表中序列化存储的格式(参见12.6.3节)。 表12-...

10℃ 0评论

14.4.3锁服务

分布式锁能够在一组进程之间提供互斥机制,使得在任何时刻只有一个进程可以持有锁。分布式锁可以用于在大型分布式系统中实现领导者选举,在任何时间点,持有锁的那个进程就是系统的领导者。 不要将ZooKeeper自己的领导者选举和使用ZooKeeper基本操作实 现的—般的领导者选举服务...

12℃ 0评论

14.4.2 可复原的ZooKeeper应用

  关于分布式计算的第一个误区是“网络是可靠的”。按照他们的观点,程序总是有一个可靠的网络,因此当程序运行在真正的网络中时,往往会出现各种各样的故障。让我们看看各种可能的故障模式,以及能够解决故障的措施,使我们的程序在面对故障时能够及时复原。 在Java API中的每一...

12℃ 0评论

14.4使用ZooKeeper来构建应用 14.4.1配置服务

在一定程度上了解ZooKeeper之后,我们接下来用ZooKeeper写一些有用的应用程序。 配置服务是分布式应用所需要的基本服务之一,它使集群中的机器可以共享配置信息中那些公共的部分。简单地说,ZooKeeper可以作为一个具有高可用性的配置存储器,允许分布式应用的参与者检索和...

13℃ 0评论

14.3.6状态

ZooKeeper对象在其生命周期中会经历几种不同的状态(参见图丨4-3)。你 可以在任何时刻通过getState()方法来査询对象的状态: public States getState() States被定义成代表ZooKeeper对象不同状态的枚举类型...

11℃ 0评论

14.3.5会话

每个ZooKeeper客户端的配置中都包括集合体中服务器的列表。在启动 时,客户端会尝试连接到列表中的一台服务器。如果连接失败,它会尝试 连接另一台服务器,以此类推,直到成功与一台服务器建立连接或因为所 有ZooKeeper服务器都不可用而失败。 ...

10℃ 0评论

12.5 HiveQL

Hive的SQL “方言”,称为HiveQL,并不完全支持SQL-92标准,因为 SQL-92兼容本来就不是Hive项目的目标。作为一个开源项目,开发者不 断增加新的功能,以满足用户的需要,从而使得Hive的SQL支持越来越丰 富。此外,Hive还有一些SQL-92所没有的扩展...

13℃ 0评论