整套大数据学习资料(视频+笔记)百度网盘无门槛下载:http://www.edu360.cn/news/content?id=3377

 分类:hadoop

9.4.6创建用户帐号

Hadoop集群创建完毕,并且正常工作之后,还需要授予用户访问权限。具体而言,就是分别为各用户创建home目录,并相应地赋予用户拥有者 (ownership)权限。 % hadoop fs -mkdir /user/username %...

9℃ 0评论

16.5 关于 Cascading

Cascading是一个开源的Java库和应用程序编程接口(API),它为 MapReduce提供了一个抽象层。它允许开发者构建出能在Hadoop集群上运 行的复杂的、关键任务类型的数据处理应用。 Cascading项目始于2007年夏天。它的第一个公开版本,即版本0....

10℃ 0评论

9.4.5 Hadoop的其他属性

本节讨论其他一些可能会用到的Hadoop属性。 1.集群成员 为了便于在将来添加或移除节点,可以通过文件来指定一些允许作为 datanode或tasktracker加入集群的经过认证的机器。属性dfs.hosts记录允许作为datanode加入集群机器列表;属性mapred.ho...

9℃ 0评论

16.4.4收集和存储

1.日志收集 产生日志的服务器分布于多个数据中心,但目前我们只有一个单独的 Hadoop集群,位于其中一个数据中心(参见图16-8)。为了汇总日志数据并把它们放人集群,我们使用syslog-ng(Unix syslog机制的替代)和一些简单的脚本来控制Hadoop上文件的创建。 ...

10℃ 0评论

16.4.3选择 Hadoop

一旦选择在RDBMS(关系型数据库管理系统)上对数据进行分片存储,你就 丧失了 SQL在数据集分析处理方面的很多优势。Hadoop使我们能够使用针 对小型数据集的同样的算法来轻松地并行处理所有数据。 转载请注明:全栈大数据 » 16.4.3选择 Hadoo...

10℃ 0评论

16.4.2简史

我们日志处理系统的前几个版本都基于MySQL的,但随着我们拥有越来越 多的日志存储机器,我们达到了一个MySQL服务器能够处理的极限。虽然 该数据库模式已经进行了适度的非规范化处理,使其能够较轻松地进行数 据切片,但目前MySQL对数据分区的支持仍然很脆弱。但我们没有选择在&nb...

9℃ 0评论

16.4 backspace的日志处理 16.4.1要求/问题

    Rackspace Hosting —直为企业客户提供管理系统,同样,Mailtrust在20〇7 秋变成backspace的邮件分部。Rackspace目前在几百台服务器上为100多 万用户和几千家公司提供邮件服务。 系...

12℃ 0评论

9.4.4 Hadoop守护进程的地址和端口

Hadoop守护进程一般同时运行RPC和HTTP两个服务器,RPC服务器(表 9-5)支持守护进程间的通信,HTTP服务器则提供与用户交互的Web页面 (表9-6)。需要分别为各个服务器配置网络地址和端口号。当网络地址被设 为0.0.0.0时,Hadoop将与本机上的所有地址绑定...

11℃ 0评论

16.3.4总结

这里对Nutch系统的简短综述省略了很多细节,比如错误处理、日志记录、URL过滤和规范化、处理重定向或其他形式的网页“别名”(如镜 像)、剔除重复内容、计算PageRank值等。在这个项目的官方主页和wiki页面 (http://wiki.apache.org/nutc...

10℃ 0评论

16.3.3 Nutch系统利用Hadoop进行数据处理的精选实例

下面几节详细描述了几种Nutch工具,主要用于说明Nutch系统如何利用 MapReduce模式来完成具体的数据处理任务。 1.链接逆转 爬取到的HTML页面包含HTML链接,这些链接可能指向它本身(内部链接)或指向其他网页。HTML链接从源网页指向目标网页,参见图16...

10℃ 0评论

16.3.2数据结构

在Nutch系统中维护着几种主要的数据结构,它们都利用Hadoop I/O类和 数据格式来构造。根据数据使用目的和数据创建之后的访问方式,这些数 据可以使用Hadoop的映射(map)文件或顺序(sequence)文件进行保存。 因为数据是MapReduce的作业产生和处理的,而...

9℃ 0评论

16.3 Nutch搜索引擎 16.3.1背景介绍

Nutch这个框架用于构建可扩展的网络爬虫(crawler)和搜索引擎。它是 Apache 软件基金会(Apache Software Foundation)的一个项目,Lucene 的一 个子项目,遵循Apache 2.0许可。 我们不会深入地细究...

15℃ 0评论

16.2.3 Hive

刚开始使用Hadoop时,我们很快就倾倒于它的可扩展性和有效性。然而, 我们担心它是否可以被广泛采用,主要是因为用Java写MapReduce程序的 复杂度问题(还有培训用户写这种程序的代价)。我们知道很多公司的工程师 和分析师很了解SQL,它是一种査询和分析数据的工具,并且我们...

14℃ 0评论

16.2.2虚构的使用样例

这一节,我们将描述在大型网站上经常遇到的问题,由于涉及的开销和规 模都太大,这些问题很难通过传统的数据仓库管理技术来解决。Hadoop和 Hive技术针对这些问题提供了一种扩展性更好、性价比更高的解决方案。 1.广告客户的洞察力和广告性能 Hadoop最普遍的一个用途是为大量数据...

15℃ 0评论

16.2.1 Hadoop 在 Facebook 的使用

1.发展史 随着Facebook网站的使用量增加,网站上需要处理和存储的日志和维度数 据激增。在这种环境下对任何一种数据处理平台的一个关键性要求是它必 须具有快速的支持系统扩展的应变能力。此外,由于工程资源有限,所以 系统必须是可靠的,并且易于使用和维护。 Facebook最初使...

11℃ 0评论