整套大数据学习资料(视频+笔记)百度网盘无门槛下载:http://www.edu360.cn/news/content?id=3377

 分类:Hadoop权威指南(第3版)

10.2.1 曰志

所有Hadoop守护进程都会产生日志文件,这些文件非常有助于查明系统中 已发生的事件。9A2节在讨论系统日志文件时解释了如何配置这些文件。 1. 设置日志级别 在故障排査过程中,若能够临时变更特定组件的日志的级别的话,将非常 有益。 可以通过Hadoop守护进程的网页(在守护进程...

25℃ 0评论

10.2监控

监控是系统管理的重要内容。在本节中,我们概述Hadoop的监控工具,看 看它们如何与外部监控系统相结合。 监控的目标在于检测集群在何时未提供所期望的服务。主守护进程是最需 要监控的,包括主namenode、辅助namenode和jobtracker。我们可以预期 少数datano...

23℃ 0评论

10.1.4HDFS工具

  1. dfsadmin 工具 dfsadmin办工具用途较广,既可以査找HDFS状态信息,又可在HDFS上执 行管理操作。调用形式如下:• hadoop dfsadmin 仅当用户具有超级用户权限,才可以使用这个工具修改HDFS的状态。 表10-2列举了部分的命令。...

24℃ 0评论

10.1.3 曰志审计

HDFS的日志能够记录所有文件系统访问请求,有些组织需要这项特性来进 行审计。对日志进行审计是log4j在INFO级别实现的。在默认配置下,在log4j.properties 属性文件中的日志阈值被设为WARN,因而此项特性并未启用: log4j.logger.org.apach...

19℃ 0评论

10.1.2安全模式

namenode启动时,首先将映像文件(/Wwage)载人内存,并执行编辑日志 (以心)中的各项操作。一且在内存中成功建立文件系统元数据的映像,则创 建一个新的/hwage文件(该操作不需要借助辅助namenode)和一个空的编辑 日志。此时,namenode开始监听RPC和HT...

16℃ 0评论

10.1 HDFS 永久性数据结构

对于管理员来说,深入了解namenode、辅助namenode和datanode等 HDFS组件如何在磁盘上组织永久性数据非常重要。洞悉各文件的用法有助 于进行故障诊断和故障检出。 1. namenode的目录结构 namenode被格式化之后,将产生如下所示的目录结构: ${d...

21℃ 0评论

第七章 MapReduce的类型与格式

MapReduce的类型与格式 MapReduce数据处理模型非常简单:map和reduce函数的输入和输出是键/值对。本章深入讨论MapReduce模型,重点介绍各种类型的数据(从简单文本到结构化的二进制对象)如何在MapReduce中使用。 1. MapReduce...

25℃ 0评论

第六章 MapReduce的工作机制

MapReduce的工作机制 在本章中,我们将深入学习Hadoop中的MapReduce工作机制。这些知识 将为我们随后两章学习编写MapReduce高级编程奠定基础。 1. 剖析MapReduce作业运行机制 可以通过一个简单的方法调用来运行MapRedece作业:]...

29℃ 0评论

5 MapReduce应用开发

MapReduce应用开发   在第2章中,我们介绍了MapReduce模型。本章中,我们从实现层面介绍在Hadoop中开发MapReduce应用程序。 MapReduce编程遵循一个特定的流程。首先写map函数和reduce函数,最好使用单元测试来确保函数的运行符合预...

41℃ 0评论

第四章 Hadoop的I/O操作

Hadoop的I/O操作 Hadoop自带一套原子操作用于数据I/O操作。其中有一些技术比Hadoop本身更常用,如数据完整性保持和压缩,但在处理多达好几个TB的数据集时,特别值得关注。其他一些则是Hadoop工具或API,它们所形成的构建模块可用于开发分布式系统,比如序列化操作...

108℃ 0评论

15.9.2 导出和 SequenceFile

之前的导出示例是从一个Hive表中读取源数据,该Hive表以分隔文本文 件形式保存在HDFS中。Sqoop也可以从非Hive表的分隔文本文件中导出 数据。例如,Sqoop可以导出MapReduce作业结果的文本文件。 Sqoop还可以将存储在SequenceFile中的记录导出到...

28℃ 0评论

15.9.1 导出与事务

进程的并行特性决定了导出操作往往不是原子操作。Sqmjp会生成多个并行 执行的任务,分别导出数据的一部分。这些任务的完成时间各不相同,即 使在每个任务内部都使用事务,不同任务的执行结果也不可能同时提交。 此外,数据库系统经常使用固定大小的缓冲区来存储事务数据,这使得一 个任务...

29℃ 0评论

15.9深入了解导出功能

Sqoop导出功能的架构与其导入功能的非常相似(参见图15-4)。在执行导出 操作之前,Sqoop会根据数据库连接字符串来选择一个导出方法。对于大多 数系统来说,Sqoop都会选择JDBC,然后,Sqoop会根据目标表的定义生 成一个Java类;这个生成的类能够从文本文件中解析出...

24℃ 0评论

15.8执行导出

在Sqoop中,“导入”(import)是指将数据从数据库系统移动到HDFS。与 之相反,“导出”(export)是将*HDFS作为数据源,而将一个远程数据库作 为目标。在前面的几个小节中,我们导入了一些数据并且使用Hive对数据 进行了分析。我们可以将分析的结果导出到一个数据库...

22℃ 0评论

hive> SELECT * FROM zip_profits ORDER BY sales_vol DESC; OK 403.71 90210 28.0 10005 20.0 95014 15.7导入大对象

很多数据库都支持在一个字段中保存大量的数据,根据数据是文本还是二进制类型,通常将其保存在表中CLOB或BLOB类型的列中。数据库一般会 对这些“大对象”进行特殊处理。大多数的表在磁盘上的物理存储都如图 15-2所示。通过行扫描来确定哪些行匹配特定的査询条件时,通常需要从 磁盘上读...

29℃ 0评论