整套大数据学习资料(视频+笔记)百度网盘无门槛下载:http://www.edu360.cn/news/content?id=3377

16.7用Pig和Wukong探索10亿数量级边的网络图

hadoop 花牛 98℃ 0评论

超大规模的网络是非常有魅力的。它们所能建模的东西具有普遍的意义: 假如你有一堆东西(我们称它们是节点,node),它们是相关联的(边,edge) 并且假如节点和边(node/edge元数据)能用故事关联起来,就能得到一个网 络图。

我以前做过一个称为Infochimps的项目,这是一个发现、共享或销售数据 集的全球性网站。在Infochimps网站,我们有很多技术可以应用到任何加 入该项目数据集的有趣的网络图上。我们主要使用Pig(参见第H)和 Wukong (A.这是我们用 Rubby 语言开发的处理 Hadoop流数据的工具箱。这些技术可以让我们用简单的脚本语言(如下面给 出的例子一样)一基本上所有这些脚本都不超过一页一来处理terabyte(千兆,TB)量级的图数据。在infochimps.org上査询network得到以下几个数 据集。

• 社交网络,如TwitterFacebook。我们客观地把人模型化为节 点,把关系(@wr/7/p和你ow_e_w/n7e是朋友)或行为提到了(ghrfoop)模型化为边。用户已发送的消息数和所有这些消 息的词集便是节点元数据的各个重要信息片段。

• 链接的文档集(如维基百科或整个网络)。每个页面是一个节点(把 标题、浏览次数和网页类别作为节点元数据)。每个超链接是一条 边,用户从一个页面点击进入另一个网页的频率作为边的元数据。

C.elegans roundworm研究项目中的神经元(节点)和突角虫(边)的联系。 

•髙速公路地图,出口是节点,高速公路的分段是边。Open Street Map项目的数据集是具有全球性覆盖的地点名称(节点元数据),街 道编号范围(边的元数据)及更多其他信息。

•或是一些不易发现的隐秘的图,假如你能用一个有趣的系统来做分析的话,这个网络图就会很清晰。浏览几百万条Twitter消息,为同一条消息中出现的每对非键盘字符产生一条边。简单地通过观察 “oftenwhen humans use 最,they also use 近”这句话,你就能重建人类语言地图(参见图16-23)image.png

图16-23. Twitter语言地图

这些有机相连的网络图让人惊讶的地方是,如果有足够的数据,一系列功能强大的工具软件通常就能够使用这种网络结构来揭示出更深层次的知识。例如,我们可以使用同一种算法的各种变体来做下面各个任务。

• 从维基百科链接文档集中找出最重要的网页。Google使用这个算 法的更加精良的改进版来确定排序靠前的搜索结果。

• 确定Twitter社区图中的名人和专家。如果用户的跟随者人数比用户trstrank(—种排序值)推算出的数高出很多,意味着他们往往就是 垃圾制造者。

•通过收集5年以上的几百万个匿名考试分数来预测某个学校在学生 教育问题上的影响力。

转载请注明:全栈大数据 » 16.7用Pig和Wukong探索10亿数量级边的网络图

喜欢 (0)or分享 (0)
发表我的评论
取消评论

表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址