整套大数据学习资料(视频+笔记)百度网盘无门槛下载:http://www.edu360.cn/news/content?id=3377

第8章 MapReduce的特性 8.1. 计数器

hadoop 小红牛 10℃ 0评论

   MapReduce的特性

本章探讨MapReduce的一些高级特性,包括计数器、数据集的排序和连接。

8.1 计数器

在许多情况下,用户需要了解待分析的数据,尽管这并非所要执行的分析任务的核心内容。以统计数据集中无效记录数目的任务为例,如果发现无效记录的比例相当高,那么就需要认真思考为何存在如此多无效记录。是所采用的检测程序存在缺陷,还是数据集质量确实很低,包含了大量无效记录?如果确实是数据集的质量问题,则可能需要扩大数据集的规模以增 大有效记录的比例,从而进行有意义的分析。

计数器是收集作业统计信息的有效手段之一,用于质量控制或应用级统 计。计数器还可辅助诊断系统故障。如果需要将日志信息传输到map或 reduce任务,更好的方法通常是看能否用一个计数器值来记录某一特定事 件的发生。对于大型分布式作业而言,使用计数器更为方便。除了因为获 取计数器值比输出日志更方便,坯有根据计数器值统计特定事件的发生次 数要比分析一堆日志文件容易得多。

转载请注明:全栈大数据 » 第8章 MapReduce的特性 8.1. 计数器

喜欢 (0)or分享 (0)
发表我的评论
取消评论

表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址