整套大数据学习资料(视频+笔记)百度网盘无门槛下载:http://www.edu360.cn/news/content?id=3377

13.5 示例

hadoop 花牛 12℃ 0评论

虽然HDFSMapReduce是用于对大数据集进行批处理的强大工具,但对于读或写单独的记录,效率却很低。在这个示例中,我们将看到如何用 HBase来填补它们之间的鸿沟。

前面几章描述的气象数据集包含过去100多年上万个气象站的观测数据。 这个数据集还在继续增长,它的大小几乎是无限的。在这个示例中,我们将构建一个Web界面来让用户査看不同观测站的数据。这些数据按照时间 顺序分页显示。为此,让我们假设数据集非常大,观测数据达到上亿条记录,且气温更新数据到达的速度很快——比如从全球观测站收到超过每秒几 百到几千次更新。不仅如此,我们还假设这个Web应用必须能够及时(most uptodate)显示观测数据,即在收到数据后大约1秒就能进行显示。

对数据集的第一个要求使我们排除了使用RDBMSHBase是一个可能的选择。对于查询延时的第二个要求排除了直接使用HDFSMapReduce作业可 以用于建立索引以支持对观测数据进行随机访问,但HDFSMapReduce 并不擅长在有更新到达时维护鸾引。

转载请注明:全栈大数据 » 13.5 示例

喜欢 (0)or分享 (0)
发表我的评论
取消评论

表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址