整套大数据学习资料(视频+笔记)百度网盘无门槛下载:http://www.edu360.cn/news/content?id=3377

标签:hadoop

hadoop

第9章 构建Hadoop集群

本章介绍如何在一个计算机集群上构建Hadoop系统。尽管在单机上运行 HDFS和MapReduce有助于学习这些系统,但是要想执行一些有价值的工作,必须在多节点系统上运行。 有多个选择来获得一个Hadoop集群,从建立一个专属集群,到在租借的硬 件设备上运行Hadoop...

41℃ 0评论

Hadoop权威指南(第3版)

第11张 Pig

Pig为大型数据集的处理提供了更高层次的抽象。MapReduce使作为程序员 的你能够自己定义一个map函数和一个紧跟其后的reduce函数。但是,你 必须使你的数据处理过程与这一连续的map和reduce模式相匹配。很多时 候,数据处理需要多个MapReduce过程才能实现。而...

15℃ 0评论

Hadoop权威指南(第3版)

10.3.3升级

升级HDFS和MapReduce集群需要细致的规划,特别是HDFS的升级。如 果文件系统的布局的版本发生变化,升级操作会自动将文件系统数据和元 数据迁移到兼容新版本的格式。与其他涉及数据迁移的过程相似,升级操 作暗藏数据丢失的风险,因此需要确保数据和元数据都已经备份完毕。参 见1...

12℃ 0评论

Hadoop权威指南(第3版)

10.3.2委任和解除节点

Hadoop集群的管理员经常需要向集群中添加节点,或从集群中移除节点。 例如,为了扩大存储容量,需要委任节点。相反的,如果想要缩小集群规 模,则需解除节点。如果某些节点表现反常,例如故障率过高或性能过于 低下,则需要解除该节点。 通常情况下,节点同时运行datanode ,和ta...

15℃ 0评论

Hadoop权威指南(第3版)

10.3维护 10.3.1 日常管理过程

1.元数据备份 如果namenode的永久性元数据丢失或损坏,则整个文件系统无法使用。因 此,元数据备份非常关键。可以在系统中分别保存若干份不同时间的备份 (例如,1小时前、1天前、1周前或1个月前),以保护元数据。方法一是 直接保存这些元数据文件的复本;方法二是整合到name...

19℃ 0评论

Hadoop权威指南(第3版)

10.2.2 度量

HDFS和MapReduce守护进程收集的事件和度量相关的信息,这些信息统 称为“度量”(metric)。例如,各个datanode会收集以下度量(还有更多): 写入的字节数、块的复本数和客户端发起的读操作请求数(包括本地的和远 程的)。 度量从属于特定的上下文(context)...

7℃ 0评论

Hadoop权威指南(第3版)

10.2.1 曰志

所有Hadoop守护进程都会产生日志文件,这些文件非常有助于查明系统中 已发生的事件。9A2节在讨论系统日志文件时解释了如何配置这些文件。 1. 设置日志级别 在故障排査过程中,若能够临时变更特定组件的日志的级别的话,将非常 有益。 可以通过Hadoop守护进程的网页(在守护进程...

12℃ 0评论

Hadoop权威指南(第3版)

10.2监控

监控是系统管理的重要内容。在本节中,我们概述Hadoop的监控工具,看 看它们如何与外部监控系统相结合。 监控的目标在于检测集群在何时未提供所期望的服务。主守护进程是最需 要监控的,包括主namenode、辅助namenode和jobtracker。我们可以预期 少数datano...

12℃ 0评论

Hadoop权威指南(第3版)

10.1.4HDFS工具

  1. dfsadmin 工具 dfsadmin办工具用途较广,既可以査找HDFS状态信息,又可在HDFS上执 行管理操作。调用形式如下:• hadoop dfsadmin 仅当用户具有超级用户权限,才可以使用这个工具修改HDFS的状态。 表10-2列举了部分的命令。...

14℃ 0评论

Hadoop权威指南(第3版)

10.1.3 曰志审计

HDFS的日志能够记录所有文件系统访问请求,有些组织需要这项特性来进 行审计。对日志进行审计是log4j在INFO级别实现的。在默认配置下,在log4j.properties 属性文件中的日志阈值被设为WARN,因而此项特性并未启用: log4j.logger.org.apach...

12℃ 0评论

Hadoop权威指南(第3版)

10.1.2安全模式

namenode启动时,首先将映像文件(/Wwage)载人内存,并执行编辑日志 (以心)中的各项操作。一且在内存中成功建立文件系统元数据的映像,则创 建一个新的/hwage文件(该操作不需要借助辅助namenode)和一个空的编辑 日志。此时,namenode开始监听RPC和HT...

6℃ 0评论

Hadoop权威指南(第3版)

10.1 HDFS 永久性数据结构

对于管理员来说,深入了解namenode、辅助namenode和datanode等 HDFS组件如何在磁盘上组织永久性数据非常重要。洞悉各文件的用法有助 于进行故障诊断和故障检出。 1. namenode的目录结构 namenode被格式化之后,将产生如下所示的目录结构: ${d...

13℃ 0评论

hadoop

使用MapReduce读取XML文件

XML(可扩展标记语言,英语:eXtensible Markup Language,简称: XML)是一种标记语言,也是行业标准数据交换交换格式,它很适合在系统之间进行数据存储和交换(话说Hadoop、Hive等的配置文件就是XML格式的)。本文将介绍如何使用MapReduce来...

11℃ 0评论