整套大数据学习资料(视频+笔记)百度网盘无门槛下载:http://www.edu360.cn/news/content?id=3377

13.1 HBase 基础

hadoop 花牛 12℃ 0评论

HBase是一个在HDFS上开发的面向列的分布式数据库。如果需要实时地随机访问超大规模数据集,就可以使用HBase这一Hadoop应用。

虽然数据库存储和检索的实现可以选择很多不同的策略,但是绝大多数解决办法一特别是关系数据库技术的变种——不是为大规模可伸缩的分布式处理设计的。很多厂商提供了复制(replication)和分区(partitioning)解决方案,让数据库能够从单个节点上扩展出去,但是这些附加的技术大都属于“事 后”的解决办法,而且非常难以安装和维护。并且这些解决办法常常要牺牲一些重要的RDBMS特性。在一个“扩展的” RDBMS上,连接、复杂查询、触发器、视图以及外键约束这些功能要么运行开销大,要么根本无法用。

HBase从另一个方向来解决气伸缩性的问题。它自底向上地进行构建,能 够简单地通过增加节点来达到'线性扩展。HBase并不是关系型数据库,它 不支持SQL。但在特定的问题空间里,它能够做RDBMS不能做的事:在 廉价硬件构成的集群上管理超大规模的稀疏表。

HBase的一个典型应用是wefcteWe, —个以网页URL为主键的表,其中包 含爬取的页面和页面的属性(例如语言和MIME类型)。webtable非常大,行 数可以达十亿级(billion)之级。在webtable上连续运行用于批处理分析和解 析的MapReduce作业,能够获取相关的统计信息,增加验证的MIME类型 列以及供捜索引擎进行索引的解析后的文本内容。同时,表格还会被以不同运行速度的“爬取器”(crawler)随机访问并随机更新其中的行,在用户点 击访问网站的缓存页面时,需要实时地将这些被随机访问的页面提供给 他们。

在本章中,我们将介绍如何使用HBase。要想了解更多信息,请参考Lars George所著的《HBase权威指南》。


背景


HBase 项目是由 Powerset 公司的 Chad Walters 和Jim Kelleman 在 2006 年末 发起的。当时,它起源于GoogleChang等人发表的论文“大表:结构化 数据的分布存储系统”(BigtableA Distributed Storage System for Structured Date),网址为http://labs.goole.com/papers.bigtable.hrml2007 2月, Mike Cafarella提供代码,形成了一个基本可以用的系统,然后Jim Kellerman接手继续推进项目。

HBase的第一个发布版本是在200710月和Hadoop 0.15.0捆绑在一起发布的。2010年5月,HBaseHadoop子项目升级成Apache顶层项目。 HBase的产品用户包括AdobeStumbleUponTwitter和雅虎的一些

小组。


转载请注明:全栈大数据 » 13.1 HBase 基础

喜欢 (0)or分享 (0)
发表我的评论
取消评论

表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址