整套大数据学习资料(视频+笔记)百度网盘无门槛下载:http://www.edu360.cn/news/content?id=3377

 分类:hadoop

4.2.2压缩和输入分片

在考虑如何压缩将由MapReduce处理的数据时,理解这些压缩格式是否支持切分(splitting)是非常重要的。以一个存储在HDFS文件系统中且压缩前大小为1GB的文件为例。如果HDFS的块大小设置为64MB,那么该文件将被存储在16个块中,把这个文件作为输人数据的MapRe...

11℃ 0评论

4.2.1. codec

codec实现了一种压缩-解压缩算法。在Hadoop中,一个对CompressionCodec接口的实现代表一个codec。例如,GzipCodec包装了gzip的压缩和解压缩算法。表4-2列举了 Hadoop实现的codec。 表4-2. Hadoop 的压缩code...

12℃ 0评论

4.2. 压缩

文件压缩有两大好处:减少存储文件所需要&磁盘空间,并加速数据在网络和磁盘上的传输。这两大好处在处理大量数据时相当重要,所以我们值得仔细考虑在Hadoop中文件压缩的用法。 有很多种不同的压缩格式、工具和算法,它们各有千秋。表4-1列出了与Hadoop结合使用的常见压缩方法...

12℃ 0评论

4.1.3. ChecksumFileSystem

LocalFileSystem通过ChecksumFileSystem来完成自己的任务,有了这个类,向其他文件系统(无校验和系统)加入校验和就非常简单,因为ChecksumFileSystem类继承自 FileSystem类。一般用法如下: FileSystem&nb...

9℃ 0评论

4.1.2. LocalFileSystem

Hadoop的LocalFileSystem执行客户端的校验和验证。这意味着在你写入一个名为filename的文件时,文件系统客户端会明确地在包含每个文件块校验和的同一个目录内新建一个名为.filename.crc的隐藏文件。就像HDFS一样,文件块的大小由属性io.bytes...

12℃ 0评论

4.1.1. HDFS的数据完整性

HDFS会对写入的所有数据计算校验和,并在读取数据时验证校验和。它针对每个由io.bytes.per.checksum指定字节的数据计算校验和。默认情况下为512个字节,由于CRC-32校验和是4个字节,所以存储校验和的额外开销低于1%。 datanode负责在收到数据后存储该数...

13℃ 0评论

4.1. 数据完整性

 Hadoop用户肯定都希望系统在存储和处理数据时不会丢失或损坏任何数据。尽管磁盘或网络上的每个I/O操作不太可能将错误引入自己正在读/写的数据中,但是如果系统中需要处理的数据量大到Hadoop的处理极限时,数据被损坏的概率还是很髙的。 检测数据是否损坏的常见措施是,在...

13℃ 0评论

第四章 Hadoop的I/O操作

Hadoop的I/O操作 Hadoop自带一套原子操作用于数据I/O操作。其中有一些技术比Hadoop本身更常用,如数据完整性保持和压缩,但在处理多达好几个TB的数据集时,特别值得关注。其他一些则是Hadoop工具或API,它们所形成的构建模块可用于开发分布式系统,比如序列化操作...

13℃ 0评论

5.4.2测试驱动程序

除了灵活的配置选项可以使应用程序实现Tool,还可以插入任意Configuration来增加可测试性。可以利用这点来编写测试程序,它将利用本地作业运行器在已知的输《入数据上运行作业,借此来检査输出是否满足预期。 要实现这个目标,有两种方法。第一种方法是使用本地作业运行器,在本地文...

11℃ 0评论

5.4.1本地运行测试数据 在本地作业运行器上运行作业

现在mapper和reducer已经能够在受控的输入上进行工作了,下一步是写—个作业驱动程序(Jobdriver),然后在开发机器上使用测试数据运行它。 通过使用前面介绍的Tool接口,可以轻松写一个MapReducer作业的驱动程序,来计算按照年度査找最高气温(参范例5-8的M...

12℃ 0评论

5.3.2 关于Reducer

reducer必须找出指定键的最大值。这是针对此特性的一个简单的测试,其中使用了一个ReduceDriver。   @Test public void returnsMaximumlntegerlnValues() throws IOException, Interru...

16℃ 0评论

5.3.1用MRUnit来写单元测试 关于Mapper

在MapReduce中,map函数和reduce函数的独立测试非常方便,这是由函数风格决定的。MRUnit(/?"p:///?jcMZ»fl/o/*.apacAe.org/mrMm7/)是一个测试库,它便于将已知的输入传递给mapper或者检査reducer的输出是否符...

10℃ 0评论

​ 5.2.2 辅助类GenericOptionsParser, Tool和ToolRunner

为了简化命令行方式运行作业,Hadoop自带了一些辅助类。GenericOptionsParser是一个类,用来解释常用的Hadoop命令行选项,并根据需要,为Configuration对象设置相应的取值。通常不直接使用GenericOptionsParser。更方便的方式是实现...

10℃ 0评论

5.2.1 管理配置

开发Hadoop应用时,经常需要在本地运行和集群运行之间进行切换。事实上,可能在几个集群上工作,也可能在本地“伪分布式”集群上测试。伪 分布式集群是其守护进程运行在本机的集群, 应对这些变化的一种方法是使Hadoop配置文件包含每个集群的连接设置,并且在运行Hadoop应用或工具...

12℃ 0评论

5.2 配置开发环境

首先新建一个项目,以便编译MapReduce程序并通过命令行或在自己的IDE中以本地(独立,standalone)模式运行它们。在范例5-3中的Maven POM说明了编译和测试Map–Reduce程序时需要的依赖项(dependency)。 范例5-3•编译和测试M...

18℃ 0评论