整套大数据学习资料(视频+笔记)百度网盘无门槛下载:http://www.edu360.cn/news/content?id=3377

7.3.2. 二进制输出

hadoop 花牛 35℃ 0评论

3.2.1. 关于SequenceFileOutputFormat

正如名字所示,SequenceFileOutputFormat将它的输出写为一个顺序文件。如果输出需要作为后续MapReduce任务的输入,这便是一种好的输出格式,因为它的格式紧凑,很容易被压缩。压缩由SequenceFileOutputFormat的静态方法来实现,详情参见4.2.3节。8.2节用一个例子展示了如何使用SequenceFileOutputFormat

3.2.2. 关于SequenceFileAsBinaryOuputFormat

SequenceFileAsBinaryOutputFormat 与 SequenceFileAsBinanylnputFormat相对应,它把键/值对作为二进制格式写到一个SequenceFile容器中。

3.2.3. 关于MapFileOutputFormat

MapFileOutputFormat把MapFile作为输出。MapFile中的键必须顺序添加,所以必须确保reducer输出的键已经排好序。

reduce输入的键一定是有序的,但输出的键由reduce函数控制,MapReduce框架中没有硬性规定reduce输出键必须是有序的。所以要使用MapFileOutputFormat,就需要额外的限制来保证reduce输出的键是有序的。

转载请注明:全栈大数据 » 7.3.2. 二进制输出

喜欢 (0)or分享 (0)
发表我的评论
取消评论

表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址