整套大数据学习资料(视频+笔记)百度网盘无门槛下载:http://www.edu360.cn/news/content?id=3377

 分类:hadoop

9.5.2 YARN守护进程的地址和端口

YARN守护进程运行一个或者多个RPC和HTTP服务,表9-10和表9-11描述了相关细节 表9-10.YARN的RPC服务器属性 属性名称 默认值 说明 yarn.resourcemanager.address 0.0.0.0:8032 资源...

24℃ 0评论

16.7.3对称链接

有几百万人在twitter上给@THE_REAL_SHAQ回帖声援支持的时候,他不回 复这几百万人是可以理解的。如图所示,我经常和@mndoci交流,a让我们 之间的边是“对称链接”(symmetric link)。这精确地反映了我和@mndoci ①由于边对记录的规模比较小以及...

19℃ 0评论

16.7.1社区判断

在Infochimps数据集中,最有趣的网络是大规模爬取Twitter社区数据,分析得到的网络图。它有多达9千万个节点和20亿条边,这个图对于帮助我们理解人们的谈话和掌握他们之间的关系来说是一个非常了不起的工具。下面使用“谈论Infochimps或Hadoop的用户"构...

16℃ 0评论

16.7用Pig和Wukong探索10亿数量级边的网络图

超大规模的网络是非常有魅力的。它们所能建模的东西具有普遍的意义: 假如你有一堆东西(我们称它们是节点,node),它们是相关联的(边,edge) 并且假如节点和边(node/edge元数据)能用故事关联起来,就能得到一个网 络图。 我以前做过一个称为Infochimps...

24℃ 0评论

9.5.1 YARN守护进程的重要属性

当在YARN上运行MapReduce时,mapred_site.xml文件仍被用于记录通用 MapReduce属性,只是与jobtracker和tasktracker相关的属性已经废弃了。 除了 mapred.child.java.opts以外(以及两个相关属性 mapredu...

19℃ 0评论

16.5.7总结

对于处理和协调跨不同架构组件的数据移动问题,Hadoop是一个非常强大 的平台。它唯一的缺点是它的主要计算模型是MapReduce。 Cascading的目标是(不用按照MapRedue模式来考虑设计方案)帮助开发者 通过使用一个逻辑定义良好的API来快速而简单地建立强大的应用程...

19℃ 0评论

16.5.6 Hadoop 和 Cascading 在 ShareThis 的应用

ShareThis是一个方便用户共享在线内容的共享网络。通过单击网页上或浏 览器插件上的一个按钮,ShareThis允许用户无缝地访问他们的任何在线联 系人及在线网络,并且允许他们通过电子邮件、在线聊天、Facebook、 Digg和手机短信等方式共享它们的内容,而这一...

18℃ 0评论

16.5.5灵活性

回顾一下,让我们来看看这个新的模型给我们带来了什么好处或消除了哪些不足。 可以看出,我们不必再用MapReduce作业模式来考虑问题,或考虑Mapper 和Reducer接口的实现问题,后续的MapReduce作业和前面的MapReduce 作业如何绑定或链接...

17℃ 0评论

9.5 YARN 配置

YARN是运行MapReduce的下一代架构(参见6.1.2节),其守护进程和配置 选项均与传统的MapReduce(也被称为MapReduce 1)不同。本节将讨论这些 差异,以及如何在YARN上运行MapReduce。 在YARN上,用户不再运行jobtracker或者tas...

18℃ 0评论

16.5.4 Cascading 实战

现在我们知道Cascading是什么,清楚地了解它是如何工作的,但是用 Cascading写的应用程序是什么样子呢?我们来看看范例16-2。 Scheme sourceScheme =      ...

16℃ 0评论

16.5.3 Tap、Scheme 和 Flow

在前面的几个图中,我们多次提到源数据(source)和目标数据(sink)。在 Cascading系统中,所有的数据都是读自或写入Tap类实例,但是它们都是 通过Scheme对象被转换成最取自元组实例对象。 • Tap Tap类负责如何访问数据以及从哪个位置访...

20℃ 0评论

16.5.2操作

如前所述,Cascading通过引入一些其他操作而脱离了 MapReduce模式,这 些操作或应用于单个元组,或应用于元组分组(图16-15)。   图16-15 操作原型 • Function Function作用于单个的输入元组,对每个输人,它可...

19℃ 0评论

16.5.1字段、元组和管道

MapReduce模型使用键和值的形式把输入数据和Map函数,Map函数和 Reduce函数以及Reduce函数和输出数据联系起来。 但据我们所知,实际的Hadoop应用程序通常会使用多个关联的MapReduce 作业。看一下用MapReduce模型实现的一个...

19℃ 0评论