整套大数据学习资料(视频+笔记)百度网盘无门槛下载:http://www.edu360.cn/news/content?id=3377

 分类:hadoop

12.7.2MapReduce 脚本

和 Hadoop Streaming 类似,TRANSFORM、MAP 和 REDUCE 子句可以在 Hive中调用外部脚本。假设我们像范例12-1那样,用一个脚本来过滤不符 合某个条件的行,即删除低质量的气温读数。 范例12-1.过滤低质量气象记录的Python脚本 #!/u...

10℃ 0评论

15.6. 使用导入的数据

一旦数据被导入HDFS,就可以供定制的MapReduce程序使用。导入的文 本格式数据可以供Hadoop Streaming中的脚本或以TextlnputFormat为默 认格式运行的MapReduce作业使用。 为了使用导入记录的个别字段,必须对字段分隔符(以及转义/包围字符)...

12℃ 0评论

12.7.1 查询数据 排序和聚集

这一节讨论如何使用SELECT语句的各种形式从Hive中检索数据。 在Hive中可以使用标准的ORDER BY子句对数据进行排序。但这里有一 个潜在的不利因素。ORDER BY能够预期产生完全排序的结果,但它是通 过只用一个reducer来做到这一点的。所以对于大规模的数据集,...

11℃ 0评论

15.5.3. 直接模式导入

Sqoop的架构支持它在多种可用的导入方法中进行选择,而多数数据库都使用上述基于DataDrivenDBInputFormat的方法。一些数据库提供了能够快速抽取数据的特定工具,例如MySQL的mysqldump能够以大于JDBC的吞吐率从表中读取数据。在Sqoop的文档中将这种...

14℃ 0评论

15.5.2. 导入和一致性

在向HDFS导入数据时,重要的是要确保访问的是数据源的一致性快照。从一个数据库中并行读取数据的Map任务分别运行在不同的进程中,因此,它们不可能共享同一个数据库事务。保证一致性的最好方法就是在导入时不允许运行任何对表中现有数据进行更新的进程。 转载请注明:全栈大数据 &raqu...

14℃ 0评论

15.5.1. 导入控制

Sqoop不需要每次都导入整张表。例如,可以指定仅导入表的部分列。用户也可以在查询中加入WHERE子句,以此来限定需要导入的记录。例如, 如果上个月已经将id为0~99,999的记录导入,而本月供应商的产品目录中增加了1000种新部件,那么导入时在查询中加入子句WHERE id ...

14℃ 0评论

15.5. 深入了解数据库导入

如前所述,Sqoop是通过一个MapReduce作业从数据库中导入一个表,这个作业从表中抽取一行行记录,然后将记录写入HDFS。MaPReduce是如何读取记录的呢?本节将解释Sqoop的底层工作机理。 图15-1粗略演示了Sqoop是如何与源数据库及Hadoop进行交互的。像&...

12℃ 0评论

15.4. 生成代码

除了能够将数据库表的内容写到HDFS,Sqoop同时还生成了一个Java源文件(widgets.java),保存在当前的本地目录中。(在运行了前面的sqoop import命令之后,可以通过Is widgets, java命令看到这个文件。) 在15.5节中,将看到Sqoop在将...

14℃ 0评论

15.3. 一个导入的例子

在安装了Sqoop之后,可以用它将数据导入Hadoop。在本章的所有示例中我们都使用支持很多平台的易用数据库系统MySQL作为外部数据源。 基于Debian的Linux系统(如Ubuntu)的用户可以通过键入sudo apt-get install mysql-client&nb...

12℃ 0评论

15.2. Sqoop连接器

Sqoop拥有一个可扩展的框架,使得它能够从(向)任何支持批量数据传输的外部存储系统导入(导出)数据。一个Sqoop连接器(connector)就是这个框架下的一个模块化组件,用于支持Sqoop的导入和导出操作。Sqoop附带的连接器能够支持大多数常用的关系数据库系统,包括MyS...

12℃ 0评论

15.1. 获取Sqoop

在几个地方都可以获得Sqoop。该项目的主要位置是在http://sqoop.apache.org,这里有Sqoop的所有源代码和文档。在这个站点可以获得Sqoop的官方版本和当前正在开发的新版本的源代码,这里同时还提供项目编译说明。另外,Cloudera’s Distribut...

14℃ 0评论

12.6.6 表的丢弃

DROP TABLE语句用于删除表的数据和元数据。如果是外部表,就只删除元数据数据不会受到影响。 如果要删除表内的所有数据,但要保留表的定义(如MySQL的DELETE或 TRUNCATE),删除数据文件即可。例如: hive>dfs -rmr /us...

12℃ 0评论

第15章 关于Sqoop

Hadoop平台的最大优势在于它支持使用不同形式的数据。HDFS能够可靠地存储日志和来自不同渠道的其他数据,MapReduce程序能够解析多种 “即席”(ad hoc)数据格式,抽取相关信息并将多个数据集组合成非常有用的结果。 但是为了能够和HDFS之外的数据存储库进行交互,M...

10℃ 0评论

12.6.5 表的修改

 由于Hive使用“读时模式”(schema on read),所以在创建表以后,它非常 灵活地支持对表定义的修改。但一般需要警惕,在很多情况下,要由你来 确保修改数据以符合新的结构。 可以使用ALTER TABLE语句来重命名表: ALTER TABLE source...

8℃ 0评论

12.6.4 导入数据

我们已经见过如何使用LOAD DATA操作,通过把文件复制或移到表的目录 中,从而把数据导入Hive的表(或分区)。也可以用INSERT语句把数据从 一个Hive表填充到另一个;或在新建表的时候使用C7XS结构,CTAS是 CREATE TABLE……AS SELECT 的缩写...

12℃ 0评论