整套大数据学习资料(视频+笔记)百度网盘无门槛下载:http://www.edu360.cn/news/content?id=3377

第五章 MapReduce应用开发

hadoop 小红牛 7℃ 0评论

MapReduce应用开发

 

在第2章中,我们介绍了MapReduce模型。本章中,我们从实现层面介绍在Hadoop中开发MapReduce应用程序。

MapReduce编程遵循一个特定的流程。首先写map函数和reduce函数,最好使用单元测试来确保函数的运行符合预期。然后,写一个驱动程序来运行作业,看这个驱动程序是否可以正确运行,可以先从本地IDE中用一个小的数据集来运行它。如果驱动程序不能正确运行,就用本地IDE调试器来找出问题根源。根据这些调试信息,可以通过扩展单元测试来覆盖这一测试用例,从而改进mapperreducer,使其能正确处理类似输入

一旦程序按预期通过小型数据集的测试,就可以考虑把它放到集群上运行了。当运行程序对整个数据集进行测试的时候,可能会暴露更多的问题,这些问题可以像前面一样修复,即通过扩展测试用例的方式改进mapperreducer。在集群中调试程序很具有挑战性,我们来看一些常用的技术使其变得更简单一些。

程序可以正确运行之后,如果想进行一些优化调整,首先需要执行一些标准检査,借此加快MapReduce程序的运行速度,然后再做任务剖析task profiling)。分布式程序的分栌并不简单,Hadoop提供了钩子(hook)来辅助这个分析过程。

在开始写MapReduce程序之前,需要设置和配置开发环境。为此我们需要先学习如何配置Hadoop

转载请注明:全栈大数据 » 第五章 MapReduce应用开发

喜欢 (0)or分享 (0)
发表我的评论
取消评论

表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址