整套大数据学习资料(视频+笔记)百度网盘无门槛下载:http://www.edu360.cn/news/content?id=3377

16.1.2 Hadoop 在 Last.fm 中的应用

hadoop 花牛 11℃ 0评论

随着Last.fm各种网络服务的幵发,用户数目从数千增长到数百万,存储、 处理和管理这些用户数据渐渐变成一项挑战。幸运的是,当大家认识到 Hadoop技术能解决众多问题的时候,在共同努力下Hado叩的性能迅速稳定下来,并被积极地用于解决众多问题。2006年初,Last.fm开始使用 Hadoop,几个月之后便投入实际应用。Last.fm使用Hadoop的理由归纳如下:

    •分布式文件系统为它所存储的数据 例如,网络日志,用户收听音乐的相关数据提供冗余备份服务而不增加额外的费用 

    •可以方便地通过增添便宜、商用的硬件来满足可扩展性需求 

    •当时Last.fm财力有限,而Hadoop是免费的

    •开源代码和活跃的社区意味着Last.fm能够自由地修改Hadoop,从而增添一些自定义特性和补丁

    • Hadoop提供了一个灵活的、容易掌握的框架来进行分布式计算

现在,Hadoop已经成为Last.fm基础平台的关键组件,包括2Hadoop集群,涉及50台计算机、300个内核和100TB的硬盘空间。在这些集群上, 进行数百种日常作业的计算执行,例如日志文件分析、A/B测试评测、即席处理和图表生成。本节的例子将侧重于介绍产生图表的处理过程,因为这是Last.fmHadoop的第一个应用,它展示出Hadoop在处理大数据集时比其他方法具有更强的功能性和灵活性。 

转载请注明:全栈大数据 » 16.1.2 Hadoop 在 Last.fm 中的应用

喜欢 (0)or分享 (0)
发表我的评论
取消评论

表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址