整套大数据学习资料(视频+笔记)百度网盘无门槛下载:http://www.edu360.cn/news/content?id=3377

16.3.4总结

hadoop 花牛 10℃ 0评论

这里对Nutch系统的简短综述省略了很多细节,比如错误处理、日志记录、URL过滤和规范化、处理重定向或其他形式的网页“别名”(如镜 像)、剔除重复内容、计算PageRank值等。在这个项目的官方主页和wiki页面 (http://wiki.apache.org/nutch),可以找到这些内容的介绍及其他更多信息。

当前,Nutch正在被很多组织或个人用户使用。然而,运作一个搜索引擎要 求有大量的投资来支持硬件配备,系统集成,自定义开发和索引维护。因此,在大多数情况下,Nutch用于构建商业的垂直或针对领域的搜索引擎。

Nutch正处于积极的开发中,并且该项目紧跟Hadoop的最新版本。因此, 它将继续成为使用Hadoop平台的核心部件,并且具有良好产出的应用实例。

转载请注明:全栈大数据 » 16.3.4总结

喜欢 (0)or分享 (0)
发表我的评论
取消评论

表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址