整套大数据学习资料(视频+笔记)百度网盘无门槛下载:http://www.edu360.cn/news/content?id=3377
零基础学大数据算法

第1章 何谓大数据

1.1 身边的大数据 小可: 王老师,那什么是大数据呢? Mr.王: 你还真是一下就问了个很复杂的问题。其实大数据是一个很模糊的概念,很多学者和学术组织都对其提出过自己的定义,但是至今还没有公认的定义。我们先不谈确切的定义,先来举几个例子说明吧。你平常用社交网络吗? 小...

小小明 1天前 48℃ 0评论 2喜欢

hive

一起学Hive 01-Hive概述

1. Hive是什么 Hive是基于Hadoop的数据仓库解决方案。由于Hadoop本身在数据存储和计算方面有很好的可扩展性和高容错性,因此使用Hive构建的数据仓库也秉承了这些特性。 这是来自官方的解释。 简单来说,Hive就是在Hadoop上架了一层SQL接口,可以将SQL翻...

小小明 3天前 5℃ 0评论 0喜欢

Hadoop权威指南(第3版)

第四章 Hadoop的I/O操作

Hadoop的I/O操作 Hadoop自带一套原子操作用于数据I/O操作。其中有一些技术比Hadoop本身更常用,如数据完整性保持和压缩,但在处理多达好几个TB的数据集时,特别值得关注。其他一些则是Hadoop工具或API,它们所形成的构建模块可用于开发分布式系统,比如序列化操作...

小小明 3天前 62℃ 0评论 2喜欢

Hadoop权威指南(第3版)

15.9.2 导出和 SequenceFile

之前的导出示例是从一个Hive表中读取源数据,该Hive表以分隔文本文 件形式保存在HDFS中。Sqoop也可以从非Hive表的分隔文本文件中导出 数据。例如,Sqoop可以导出MapReduce作业结果的文本文件。 Sqoop还可以将存储在SequenceFile中的记录导出到...

zuiw 3天前 10℃ 0评论 0喜欢

Hadoop权威指南(第3版)

15.9.1 导出与事务

进程的并行特性决定了导出操作往往不是原子操作。Sqmjp会生成多个并行 执行的任务,分别导出数据的一部分。这些任务的完成时间各不相同,即 使在每个任务内部都使用事务,不同任务的执行结果也不可能同时提交。 此外,数据库系统经常使用固定大小的缓冲区来存储事务数据,这使得一 个任务...

zuiw 3天前 10℃ 0评论 0喜欢

Hadoop权威指南(第3版)

15.9深入了解导出功能

Sqoop导出功能的架构与其导入功能的非常相似(参见图15-4)。在执行导出 操作之前,Sqoop会根据数据库连接字符串来选择一个导出方法。对于大多 数系统来说,Sqoop都会选择JDBC,然后,Sqoop会根据目标表的定义生 成一个Java类;这个生成的类能够从文本文件中解析出...

zuiw 3天前 2℃ 0评论 0喜欢

Hadoop权威指南(第3版)

15.8执行导出

在Sqoop中,“导入”(import)是指将数据从数据库系统移动到HDFS。与 之相反,“导出”(export)是将*HDFS作为数据源,而将一个远程数据库作 为目标。在前面的几个小节中,我们导入了一些数据并且使用Hive对数据 进行了分析。我们可以将分析的结果导出到一个数据库...

zuiw 3天前 6℃ 0评论 1喜欢

Hadoop权威指南(第3版)

hive> SELECT * FROM zip_profits ORDER BY sales_vol DESC; OK 403.71 90210 28.0 10005 20.0 95014 15.7导入大对象

很多数据库都支持在一个字段中保存大量的数据,根据数据是文本还是二进制类型,通常将其保存在表中CLOB或BLOB类型的列中。数据库一般会 对这些“大对象”进行特殊处理。大多数的表在磁盘上的物理存储都如图 15-2所示。通过行扫描来确定哪些行匹配特定的査询条件时,通常需要从 磁盘上读...

zuiw 3天前 12℃ 0评论 0喜欢

Hadoop权威指南(第3版)

15.6使用导入的数据

一旦数据被导入HDFS,就可以供定制的MapReduce程序使用。导入的文 本格式数据可以供Hadoop Streaming中的脚本或以TextlnputFormat为默 认格式运行的MapReduce作业使用。 为了使用导入记录的个别字段,必须对字段分隔符(以及转义/包围字符)...

zuiw 3天前 5℃ 0评论 0喜欢