整套大数据学习资料(视频+笔记)百度网盘无门槛下载:http://www.edu360.cn/news/content?id=3377

16.4 backspace的日志处理 16.4.1要求/问题

hadoop 花牛 12℃ 0评论

    Rackspace Hosting —直为企业客户提供管理系统,同样,Mailtrust20秋变成backspace的邮件分部。Rackspace目前在几百台服务器上为100多 万用户和几千家公司提供邮件服务。

系统传输的Rackspace用户的邮件产生了相当大的文件路径信息,它们以各种格式的日志文件形式存放,每天大约有150 GB。统计这些数据对系统发 展规划以及了解用户如何使用我们的系统是非常有帮助的,并且这些记录 对系统故障排査也有好处。

假如一封邮件发送失败或用户无法登陆系统,这时非常重要的事是让我们 的客服能找到足够的与问题相关的信息然后开始调试工作。为了能够快速 发现这些信息,我们不能把日志文件就这么放在产生它们的机器上或以其 原始格式存放。相反,我们使用Hadoop来做大量的日志处理工作,而其结 果被Lucene索引之后用来支持客服的査询需求。 曰志

数量级最大的两种日志是由Postfix邮件发送代理和Microsoft Exchange Server产生的。所有通过我们系统的邮件都要在某个地方使用Postfix邮件 代理服务器,并且大部分消息都要经过多个Postfix服务器。Exchange是必 须独立的系统,但是其中有一类profix服务器充当一个附加保护层,它们 使用SMTP协议在各个环境下的托管邮箱之间传递消息。

消息要传递经过很多机器,但是每个服务器只知道邮件的目的地,然后发送邮件到下一个负责的服务器。因此,为了给消息建立完整的历史信息, 我们的日志处理系统需要拥有系统的全局视图。这就是Hadoop对我们帮助 最大的地方:随着我们的系统发展壮大,系统日志量也随之增长。为了使 我们的日志处理逻辑仍然可行,我们必须确保它能扩展。MapReduce就是 一个可以处理这种数据增长的完美系统架构。

转载请注明:全栈大数据 » 16.4 backspace的日志处理 16.4.1要求/问题

喜欢 (0)or分享 (0)
发表我的评论
取消评论

表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址