整套大数据学习资料(视频+笔记)百度网盘无门槛下载:http://www.edu360.cn/news/content?id=3377

 分类:hadoop

9.2 集群的构建和安装

硬件备齐之后,下一步就是装配设备,从零开始安装所需软件以运行Hadoop。 . 安装和配置Hadoop有多种方式。本章介绍如何使用Apache Hadoop分发包安装Hadoop,同时也介绍一些在安装过程中需要仔细思考的背景知识。此外,如果用户想用RPM或Debian包来管理Ha...

14℃ 0评论

9.1 集群规范

Hadoop运行在商业硬件上。用户可以选择普通硬件供应商生产的标准化的、广泛有效的硬件来构建集群,无需使用特定供应商生产的昂贵、专有的硬件设备。   首先澄清两点。第一,商业硬作并不等同于低端硬件。低端机器常常使用便宜的零部件,其故障率远高于更贵一些(但仍是商业级别)的...

12℃ 0评论

第九章 管理Hadoop

本章介绍如何在一个计算机集群上构建Hadoop系统。尽管在单机上运行 HDFS和MapReduce有助于学习这些系统,但是要想执行一些有价值的工作,必须在多节点系统上运行。   有多个选择来获得一个Hadoop集群,从建立一个专属集群,到在租借的硬 件设备上运行Hado...

18℃ 0评论

第十四章 关于 ZooKeeper

关于  ZooKeeper 迄今为止,本书都是在教我们大规模数据处理技术。但本章的内容则有所不同,将介绍如何使用ZooKeeper来构建一般的分布式应用。ZooKeeper是Hadoop的分布式协调服务。 写分布式应用的主要困难在于会出现“部分失败”(partial ...

30℃ 0评论

12 关于Hive

关于Hive 在“信息平台和数据科学家的崛起” ®(Information Platforms and the Rise of the Data Scientist)—文中,Jeff Hammerbacher把“信息平台”描述为“企业摄取 (ingest)、处理(process)...

34℃ 0评论

第15章 关于Sqoop

第15章 关于Sqoop (作者:Aaron Kimball) Hadoop平台的最大优势在于它支持使用不同形式的数据。HDFS能够可靠地存储日志和来自不同渠道的其他数据,MapReduce程序能够解析多种 “即席”(ad hoc)数据格式,抽取相关信息并将多个数据集组...

17℃ 0评论

第十三章 关于HBase

关于HBase 13.1 HBase 基础 HBase是一个在HDFS上开发的面向列的分布式数据库。如果需要实时地随机访问超大规模数据集,就可以使用HBase这一Hadoop应用。 虽然数据库存储和检索的实现可以选择很多不同的策略,但是绝大多数解决办法一特...

27℃ 0评论

第10章 管理Hadoop

第10章 管理Hadoop 第9章介绍了如何搭建Hadoop集群。本章将关注如何保障集群的平稳 运行。 10.1 HDFS 10.1.1永久性数据结构 对于管理员来说,深入了解namenode、辅助namenode和datanode等 HDFS组件如何在磁盘上组织永久性数据非常重...

32℃ 0评论

“大数据”相关技术框架知多少?

“大数据”相关技术框架知多少?
列表: 关系数据库管理系统(RDBMS) 框架 分布式编程 分布式文件系统 文件数据模型 Key -Map 数据模型 键-值数据模型 图形数据模型 NewSQL数据库 列式数据库 时间序列数据库 类SQL处理 数据摄取 服务编程 调度 机器学习 基准测试 安全性 系...

95℃ 0评论

MapReduce数据输入中InputFormat类源码解析

在MapReduce作业中的数据输入和输出必须使用到相关的InputFormat和OutputFormat类,来指定输入数据的格式,InputFormat类的功能是为map任务分割输入的数据。 InputFormat类中必须指定Map输入参数Key和Value的数据类型,以及对输...

30℃ 0评论

使用MapReduce读取XML文件

XML(可扩展标记语言,英语:eXtensible Markup Language,简称: XML)是一种标记语言,也是行业标准数据交换交换格式,它很适合在系统之间进行数据存储和交换(话说Hadoop、Hive等的配置文件就是XML格式的)。本文将介绍如何使用MapReduce来...

20℃ 0评论

设置Hadoop用户以便访问任何HDFS文件

Hadoop分布式文件系统实现了一个和POSIX系统类似的文件和目录的权限模型。每个文件和目录有一个所有者(owner)和一个组(group)。文件或目录对其所有者、同组的其他用户以及所有其他用户分别有着不同的权限。对文件而言,当读取这个文件时需要有r权限,当写入或者追加到文件时...

88℃ 0评论

在shell中如何判断HDFS中的文件目录是否存在

在Linux文件系统中,我们可以使用下面的Shell脚本判断某个文件是否存在: # 这里的-f参数判断$file是否存在 if [ ! -f "$file" ]; then   echo "文件不存在!" fi 但是我们想判断HDFS上某个文件是否存...

28℃ 0评论

Hadoop分布式文件系统

Hadoop分布式文件系统 当数据集的大小超过一台独立的物理计算机的存储能力时,就有必要对它 进行分区(partition)并存储到若干台单独的计算机上。管理网络中跨多台计 算机存储的文件系统称为分布式文件系统(distributed filesystem)。该系统架 构于网络之...

64℃ 0评论