整套大数据学习资料(视频+笔记)百度网盘无门槛下载:http://www.edu360.cn/news/content?id=3377

 分类:电子书

第9章 构建Hadoop集群

本章介绍如何在一个计算机集群上构建Hadoop系统。尽管在单机上运行 HDFS和MapReduce有助于学习这些系统,但是要想执行一些有价值的工作,必须在多节点系统上运行。 有多个选择来获得一个Hadoop集群,从建立一个专属集群,到在租借的硬 件设备上运行Hadoop...

112℃ 0评论

3.4 Hadoop文件系统

Hadoop有一个抽象的文件系统概念,HDFS只是其中的一个实现。Java抽象类 org.apache.hadoop.fs.FileSystem 定义了 Hadoop 中的一个文件系统接口,并且该抽象类有几个具体实现,如表3-1所示。 表3-1 hadoop文件系统 ...

27℃ 0评论

3.3 命令行接口

现在我们通过命令行交互来进一步认识HDFS。HDFS还有很多其他接口, 但命令行是最简单的,同时也是许多开发者最熟悉的。 我们先在一台机器上运 行HDFS。稍后介绍如何在集群上运行HDFS,以提供伸缩性与容错性。 在我们设置伪分布配置时,有两个属性项需要进一步解释。第一项是 fs...

16℃ 0评论

第十三章 关于HBase

关于HBase 13.1 HBase 基础 HBase是一个在HDFS上开发的面向列的分布式数据库。如果需要实时地随机访问超大规模数据集,就可以使用HBase这一Hadoop应用。 虽然数据库存储和检索的实现可以选择很多不同的策略,但是绝大多数解决办法一特...

27℃ 0评论

9.构建Hadoop集群

本章介绍如何在一个计算机集群上构建Hadoop系统。尽管在单机上运行 HDFS和MapReduce有助于学习这些系统,但是要想执行一些有价值的工作,必须在多节点系统上运行。   有多个选择来获得一个Hadoop集群,从建立一个专属集群,到在租借的硬 件设备上运行Hado...

49℃ 0评论

第8章 MapReduce的特性

MapReduce的特性 本章探讨MapReduce的一些高级特性,包括计数器、数据集的排序和连接。 1. 计数器 在许多情况下,用户需要了解待分析的数据,尽管这并非所要执行的分析任务的核心内容。以统计数据集中无效记录数目的任务为例,如果发现无效记录的比例相当高,那么就...

23℃ 0评论

第10章 管理Hadoop

第10章 管理Hadoop 第9章介绍了如何搭建Hadoop集群。本章将关注如何保障集群的平稳 运行。 10.1 HDFS 10.1.1永久性数据结构 对于管理员来说,深入了解namenode、辅助namenode和datanode等 HDFS组件如何在磁盘上组织永久性数据非常重...

32℃ 0评论

第11张 Pig

Pig为大型数据集的处理提供了更高层次的抽象。MapReduce使作为程序员 的你能够自己定义一个map函数和一个紧跟其后的reduce函数。但是,你 必须使你的数据处理过程与这一连续的map和reduce模式相匹配。很多时 候,数据处理需要多个MapReduce过程才能实现。而...

29℃ 0评论

10.3.3升级

升级HDFS和MapReduce集群需要细致的规划,特别是HDFS的升级。如 果文件系统的布局的版本发生变化,升级操作会自动将文件系统数据和元 数据迁移到兼容新版本的格式。与其他涉及数据迁移的过程相似,升级操 作暗藏数据丢失的风险,因此需要确保数据和元数据都已经备份完毕。参 见1...

28℃ 0评论

10.3.2委任和解除节点

Hadoop集群的管理员经常需要向集群中添加节点,或从集群中移除节点。 例如,为了扩大存储容量,需要委任节点。相反的,如果想要缩小集群规 模,则需解除节点。如果某些节点表现反常,例如故障率过高或性能过于 低下,则需要解除该节点。 通常情况下,节点同时运行datanode ,和ta...

27℃ 0评论

10.3维护 10.3.1 日常管理过程

1.元数据备份 如果namenode的永久性元数据丢失或损坏,则整个文件系统无法使用。因 此,元数据备份非常关键。可以在系统中分别保存若干份不同时间的备份 (例如,1小时前、1天前、1周前或1个月前),以保护元数据。方法一是 直接保存这些元数据文件的复本;方法二是整合到name...

32℃ 0评论

10.2.3 Java 管理扩展(JMX)

Java 管理扩展(Java Management Extensions,JMX)是一个标准的 Java API, 可监控和管理应用。Hadoop包括多个托管bean(MBean),可以将Hadoop度 量发布给支持JMX的应用。现有MBean能够发布在“dfs”和“rpc”上 ...

29℃ 0评论

10.2.2 度量

HDFS和MapReduce守护进程收集的事件和度量相关的信息,这些信息统 称为“度量”(metric)。例如,各个datanode会收集以下度量(还有更多): 写入的字节数、块的复本数和客户端发起的读操作请求数(包括本地的和远 程的)。 度量从属于特定的上下文(context)...

19℃ 0评论