整套大数据学习资料(视频+笔记)百度网盘无门槛下载:http://www.edu360.cn/news/content?id=3377

 分类:hadoop

第三章 Hadoop分布式文件系统

Hadoop分布式文件系统 当数据集的大小超过一台独立的物理计算机的存储能力时,就有必要对它 进行分区(partition)并存储到若干台单独的计算机上。管理网络中跨多台计 算机存储的文件系统称为分布式文件系统(distributed filesystem)。该系统架 构于网络之...

16℃ 0评论

5.6 作业调优

作业运行后,许多开发人员可能会问:“能够让它运行得更快一些吗?” 有一些Hadoop相关的“疑点”值得检査一下,看看它们是不是引发性能问 题的“元凶”。在开始任务级别的分析或优化之前,必须仔细研究表5-3所示的检査内容。 表5-3.作业调优检查表 范围 最佳实践 ...

11℃ 0评论

1.6. Hadoop的发行版本

应该用哪个版本的Hadoop呢?当然,这个问题的答案总是随着时间而变化,而且依赖于你所需要的特性。这里总结了现阶段Hadoop发行版本系列的概要特征。 有一系列活跃的发行版本。1.x发行版本系列是0.20发行版本系列的延续,并且包含有当前最稳定的Hadoop发行版本。这一系列中...

15℃ 0评论

1.5. Apache Hadoop 和 Hadoop 生态系统

尽管Hadoop因MapReduce及其分布式文件系统(HDFS,由NDFS改名而来) 而出名,但Hadoop这个名字也用于泛指一组相关的项目,这些相关项目都使用这个基础平台进行分布式计算和海量数据处理。 本系列文章提到的项目都受Apache软件基金会支持,该基金会对开源软件项...

19℃ 0评论

1.4. Hadoop发展简史

Hadoop 是 Apache Lucene 创始人 Doug Cutting 创建的,Lucene 是一个应用 广泛的文本搜索系统库。Hadoop起源于开源的网络搜索引擎Apache Nutch,它本身也是Lucene项目的一部分。 Hadoop不是缩写,它是一个生造出来的词...

18℃ 0评论

1.3.2. 网格计算

高性能计算(High Performance Computing, HPC)和网格计算(Grid Computing) 组织多年以来一直在研究大规模数据处理,主要使用类似于消息传递接口 (Message Passing Interface, MPI)的API。从广义上讲,高性能计...

19℃ 0评论

1.3.1. 关系型数据库管理系统

为什么不能用数据库来对大量硬盘上的大规模数据进行批量分析呢?我们为什么需要MapReduce? 这两个问题的答案来自于计算机硬盘的另一个发展趋势:寻址时间的提升 远远不敌于传输速率的提升。寻址是将磁头移动到特定硬盘位置进行读写 操作的过程。它是导致硬盘操作延迟的主要原因,而传输速...

20℃ 0评论

1.3. 相较于其他系统的优势

MapReduce看似采用了一种蛮力方法。每个査询需要处理整个数据集或至少一个数据集的绝大部分。但反过来想,这也正是它的能力。MapReduce是一个批量査询处理器,能够在合理的时间范围内处理针对整个数据集的动态查询。它改变了我们对数据的传统看法,解放了以前只是保存在磁带和硬盘...

13℃ 0评论

1.2. 数据的存储与分析

我们遇到的问题很简单:在硬盘存储容量多年来不断提升的同时,访问速度(硬盘数据读取速度)却没有与时俱进。1990年,一个普通硬盘可以存储 1370 MB数据,传输速度为4.4 MB/s,因此只需要5分钟就可以读完整个硬盘中的数据。20年过去了,1TB的硬盘已然成为主流,但其数据传...

16℃ 0评论

1.1 数据!数据!

我们生活在这个数据大爆炸的时代,很难估算全球电子设备中存储的数据 总共有多少。国际数据公司(IDC)曾经发布报告称,2006年数字世界(digital universe)项目统计得出全球数据总量为0.18 ZB并预测在2011年将达到 1.8 ZB。®1 ZB 等于 1021 ...

27℃ 0评论

第一章 关于Hadoop

在古时候,人们用牛来拉重物。当一头牛拉不动一根圆木时,人 们从来没有考虑过要培育更强壮的牛。同理,我们也不该想方设 法打造超级计算机,而应该千方百计综合利用更多计算机来解决 问题。 转载请注明:全栈大数据 » 第一章 关于Hadoop...

15℃ 0评论

5.5.7 远程调试

当一个任务失败并且没有足够多的记录信息来诊断错误时,可以选择用调试器运行该任务。在集群上运行作业时,很难使用调试器,因为你不知道哪个节点处理哪部分输入,所以不能在错误发生之前安装调试器。然而,有一些其他可用的方法。 •在本地重新产生错误对于特定的输入,失败的任务通常总会失败。你可...

12℃ 0评论

​ 5.5.6 Hadoop日志

针对不同用户,Hadoop在不同的地方生成日志。表5-2对此进行了总结。 从前文可以看到,MapReduce任务日志可以从Web界面访问,这是最便捷的方式。也可以从执行taskattempt(tasktracker的本地文件系统中找到日志文件,目录以taskattempt来命名...

12℃ 0评论

5.5.5 作业调试

最经典的方法通过打印语句来调试程序,这在Hadoop中同样适用。然而,需要考虑复杂的情况:当程序运行在几十台、几百台甚至几千台节点上时,如何找到并检测调试语句分散在这些节点中的输出呢?为了处理这种情况,我们要査找一个特殊情况,我们用一个调试语句记录到一个标准错误中,它将发送一个...

14℃ 0评论

5.5.4 获取结果

一旦作业完成,有许多方法可以获取结果。每个reducer产生一个输出文件,因此,在目录中会有30个部分文件(partfile),命名为par/-00000到part-00029。 正如文件名所示,这些“part”文件可以认为是文件的一 部分。 如果输出文件很大(本例不是这种情况)...

11℃ 0评论