整套大数据学习资料(视频+笔记)百度网盘无门槛下载:http://www.edu360.cn/news/content?id=3377

 分类:hadoop

7.2. 输入格式 7.2.1. 输入分片与记录

从一般的文本文件到数据库,Hadoop可以处理很多不同类型的数据格式。本节将探讨数据格式问题 第2章中讲过,一个输入分片(split)就是一个由单个map操作来处理的输入块。每一个map操作只处理一个输入分片。每个分片被划分为若干个记录,每条记录就是一个键/值对,map&nbs...

14℃ 0评论

8.1.1. 内置计数器

Hadoop为每个作业维护若干内置计数器,以描述多项指标。例如,某些计数器记录已处理的字节数和记录数,使用户可监控已处理的输入数据量和已产生的输出数据量。 这些内置计数器被划分为若干个组,参见表8-1。 表8-1. 内置的计数器分组 组别   名称/类别 &...

13℃ 0评论

第8章 MapReduce的特性 8.1. 计数器

   MapReduce的特性 本章探讨MapReduce的一些高级特性,包括计数器、数据集的排序和连接。 8.1 计数器 在许多情况下,用户需要了解待分析的数据,尽管这并非所要执行的分析任务的核心内容。以统计数据集中无效记录数目的任务为例,如果发现无效记录的...

14℃ 0评论

7.1.2. 默认的Streaming作业

在Streaming方式下,默认的作业与Java方式是相似的,但也有差别。最简单的形式如下: % hadoop jar $HADOOP__INSTALL/contrib/streaming/hadoop-*-streaming.jar \...

12℃ 0评论

7.1.1. 默认的MapReduce作业

如果不指定mapper或reducer就运行MapReduce,会发生什么情况?我们运行一个最简单的MapReduce程序来看看: public class MinimalMapReduce extends Configured ...

13℃ 0评论

6.5.5. 跳过坏记录

大型数据集十分庞杂。它们经常有损坏的记录。它们经常有不同格式的记录。它们经常有缺失的字段。在理想情况下,用户代码可以很好地处理这些情况。但实际情况中,忽略这些坏的记录只是权宜之计。取决于正在执行的分析,如果只有一小部分记录受影响,那么忽略它们并不会显著影响结果。然而,如果一个任务...

10℃ 0评论

7.1. MapReduce 的类型

Hadoop的MapReduce中,map和reduce函数遵循如下常规格式: map: (K1, V1) —list(K2, V2) reduce: (K2, list(V2)) — list(K3, V3) 一般来说,map函...

14℃ 0评论

6.5.4. 任务JVM重用

Hadoop在它们自己的Java虚拟机上运行任务,以区别于其他正在运行的任务。为每个任务启动一个新的JVM耗时约1秒钟,对运行时间在1分钟左右的作业而言,这个额外消耗是微不足道的。但是,有大量超短任务(通常是map任务)的作业或初始化时间长的作业,它们如果能对后续任务重用JVM...

14℃ 0评论

6.5.3. 关于 OutputCommitters

Hadoop MapReduce使用一个提交协议来确保作业和任务都完全成功或失败。这个行为通过对作业使用OutputCommitter来实现,在老版本 MapReduce API中通过调用JobConf的setOutputCommitter()或配置中的mapred.output...

14℃ 0评论

第七章 MapReduce 的类型与格式

MapReduce的类型与格式 MapReduce数据处理模型非常简单:map和reduce函数的输入和输出是键/值对。本章深入讨论MapReduce模型,重点介绍各种类型的数据(从简单文本到结构化的二进制对象)如何在MapReduce中使用。 转载请注明:全栈大数据 &raq...

16℃ 0评论

6.5.2. 推测执行

MapReduce模型将作业分解成任务,然后并行地运行任务以使作业的整体执行时间少于各个任务顺序执行的时间。这使作业执行时间对运行缓慢的任务很敏感,因为只运行一个缓慢的任务会使整个作业所用的时间远远长于执行其他任务的时间。当一个作业由几百或几千个任务组成时,可能出现少数“拖后腿”...

12℃ 0评论

6.5. 任务的执行 5.1. 任务执行环境

在本小节,我们将了解 MapReduce用户对任务执行的更多的控制。 Hadoop为map任务或reduce任务提供运行环境相关信息。例如,map任务可以知道它处理的文件的名称(参见7.2.2节),map任务或reduce任务可以得知任务的尝试次数。表6-3中的属性可以从作业的...

14℃ 0评论

2.11. 查询文件系统

1.文件元数据:FileStatus 任何文件系统的一个重要特征都是提供其目录结构浏览和检索它所存文件和目录相关信息的功能。FileStatus类封装了文件系统中文件和目录的元数据,包括文件长度、块大小、复本、修改时间、所有者以及权限信息。 FileSystem的getFileS...

13℃ 0评论

6.4.3. 配置调优

现在我们已经有比较好的基础来理解如何调优shuffle过程来提高 MapReduce性能。表6-1和表6-2总结了相关设置和默认值,这些设置以作 业为单位(除非有特别说明),默认值适用于常规作业。 表6-1. map端的调优属性 属性名称 类型 默认值 说明 ...

15℃ 0评论

6.4.2. reduce端

现在转到处理过程的reduce部分。map输出文件位于运行map任务的 tasktracker的本地磁盘(注意,尽管map输出经常写到map tasktracker的本地磁盘,但reduce输出并不这样),现在,tasktracker需要为分区文件运行reduce任务。而且,re...

14℃ 0评论