整套大数据学习资料(视频+笔记)百度网盘无门槛下载:http://www.edu360.cn/news/content?id=3377

标签:sqoop

Hadoop权威指南(第3版)

15.9.2 导出和 SequenceFile

之前的导出示例是从一个Hive表中读取源数据,该Hive表以分隔文本文 件形式保存在HDFS中。Sqoop也可以从非Hive表的分隔文本文件中导出 数据。例如,Sqoop可以导出MapReduce作业结果的文本文件。 Sqoop还可以将存储在SequenceFile中的记录导出到...

18℃ 0评论

Hadoop权威指南(第3版)

15.9.1 导出与事务

进程的并行特性决定了导出操作往往不是原子操作。Sqmjp会生成多个并行 执行的任务,分别导出数据的一部分。这些任务的完成时间各不相同,即 使在每个任务内部都使用事务,不同任务的执行结果也不可能同时提交。 此外,数据库系统经常使用固定大小的缓冲区来存储事务数据,这使得一 个任务...

17℃ 0评论

Hadoop权威指南(第3版)

15.9深入了解导出功能

Sqoop导出功能的架构与其导入功能的非常相似(参见图15-4)。在执行导出 操作之前,Sqoop会根据数据库连接字符串来选择一个导出方法。对于大多 数系统来说,Sqoop都会选择JDBC,然后,Sqoop会根据目标表的定义生 成一个Java类;这个生成的类能够从文本文件中解析出...

11℃ 0评论

Hadoop权威指南(第3版)

15.8执行导出

在Sqoop中,“导入”(import)是指将数据从数据库系统移动到HDFS。与 之相反,“导出”(export)是将*HDFS作为数据源,而将一个远程数据库作 为目标。在前面的几个小节中,我们导入了一些数据并且使用Hive对数据 进行了分析。我们可以将分析的结果导出到一个数据库...

13℃ 0评论

Hadoop权威指南(第3版)

hive> SELECT * FROM zip_profits ORDER BY sales_vol DESC; OK 403.71 90210 28.0 10005 20.0 95014 15.7导入大对象

很多数据库都支持在一个字段中保存大量的数据,根据数据是文本还是二进制类型,通常将其保存在表中CLOB或BLOB类型的列中。数据库一般会 对这些“大对象”进行特殊处理。大多数的表在磁盘上的物理存储都如图 15-2所示。通过行扫描来确定哪些行匹配特定的査询条件时,通常需要从 磁盘上读...

16℃ 0评论

Hadoop权威指南(第3版)

15.6使用导入的数据

一旦数据被导入HDFS,就可以供定制的MapReduce程序使用。导入的文 本格式数据可以供Hadoop Streaming中的脚本或以TextlnputFormat为默 认格式运行的MapReduce作业使用。 为了使用导入记录的个别字段,必须对字段分隔符(以及转义/包围字符)...

10℃ 0评论

Hadoop权威指南(第3版)

15.5.3直接模式导入

Sqoop的架构支持它在多种可用的导入方法中进行选择,而多数数据库都使 用上述基于DataDrivenDBInputFormat的方法。一些数据库提供了能够 快速抽取数据的特定工具,例如MySQL的mysqldump能够以大于JDBC 的吞吐率从表中读取数据。在Sqoop的文档中...

8℃ 0评论

Hadoop权威指南(第3版)

15.5.2导入和一致性

在向HDFS导入数据时,重要的是要确保访问的是数据源的•致性快照。 从一个数据库中并行读取数据的Map任务分别运行在不同的进程中,因此 它们不可能共享同一个数据库事务。保证一致性的最好方法就是在导入时 不允许运行任何对表中现有数据进行更新的进程。 转载请注明:全栈大数据 &ra...

14℃ 0评论

Hadoop权威指南(第3版)

15.5.1导入控制

Sqoop不需要每次都导入整张表。例如,可以指定仅导入表的部分列。用户 也可以在查询中加入WHERE子句,以此来限定需要导入的记录。例如, 如果上个月已经将id为〇~99,999的记录导入,而本月供应商的产品目录 中增加了 1000种新部件,那么导入时在查询中加人子句WHERE ...

15℃ 0评论

Hadoop权威指南(第3版)

15.5深入了解数据库导入

如前所述,Sqoop是通过一个MapReduce作业从数据库中导入一个表,这 个作业从表中抽取一行行记录,然后将记录写入HDFS。MaPReduce是如何 读取记录的呢?本节将解释Sqoop的底层工作机理。 图〗5-1粗略演示了 Sqoop是如何与源数据库及Hadoop进行交互的...

7℃ 0评论

Hadoop权威指南(第3版)

15.4生成代码

除了能够将数据库表的内容写到HDFS,Sqoop同时还生成了一个Java源 文件(widgets.java),保存在当前的本地目录中。(在运行了前面的sqoop import命令之后,可以通过Is widgets, java命令看到这个文件。) 在15.5节中,将看到Sqoop在...

9℃ 0评论

Hadoop权威指南(第3版)

15.2 Sqoop连接器

Sqoop拥有一个可扩展的框架,使得它能够从(向)任何支持批量数据传输的 外部存储系统导入(导出)数据。一个Sq(K>p连接器(connector)就是这个框架 下的一个模块化组件,用于支持Sqoop的导入和导出操作。Sqo叩附带的 连接器能够支持大多数常用的关系数据库系统...

12℃ 0评论

Hadoop权威指南(第3版)

15.1 获取 Sqoop

在几个地方都可以获得Sqoop。该项目的主要位置是在 这里有Sqoop的所有源代码和文档。在这个站点可以获得Sqoop的官方版 本和当前正在开发的新版本的源代码,这里同时还提供项目编译说明。另 外,Cloudera’s Distribution Including Apache ...

9℃ 0评论