整套大数据学习资料(视频+笔记)百度网盘无门槛下载:http://www.edu360.cn/news/content?id=3377

12.1 安装Hive

hadoop 小红牛 131℃ 0评论

Hive —般在工作站上运行。它把SQL查询转换为一系列在Hadoop集群上 运行的MapReduce作业。Hive把数据组织为表,通过这种方式为存储在 HDFS的数据赋予结构。元数据(如表模式)存储在metastore数据库中。

刚开始使用Hive时,为了方便,可以让metastore运行在本地机器上。这 一设置是默认设置。此时,创建的Hive表的定义是在本地机器上,所以无 法和其他用户共享这些定义。在12.3.3节将介绍如何设置生产环境中常用 的远程共享metastore。

安装Hive的过程非常简单。首先必须有Java
6。如果在Windows环境下, 还需要Cygwin。需要在本地安装和集群上相同版本的Hadoop。®当然,在
刚开始使用Hive时,你可能会选择在本地以独立模式或伪分布模式运行 Hadoop。对于这些选项的介绍,可参见附录A。

Hive能和哪些版本的Hadoop共同工作?

每个Hive的发布版本都被设计为能够和多个版本的Hadoop共同工作.一
般而言,Hive支持Hadoop最新发布的稳定版本以及之前的老版本。这些 信息列在发布说明中。只要确保hadoop可执行文件在相应的路径中或设
置HADOOP_HOME环境变量,就不必另行告诉Hive当前正在使用哪个版本的Hadoop。

http://hive.apache.org/releases.html下载Hive的一个发布版本,然后把压 缩包解压到工作站上合适的位置:

% tar xzf hive-x.y.z.tar.gz

Hive放在你自己的路径下以便于访问:

   % export HIVE_INSTALL=/home/tom/hive-x.y.z-dev
  % export PATH=$PATH:$HIVE_INSTALL/bin

现在,键入hive启动Hive外壳环境(shell):

Hive外壳环境

Hive外壳环境是我们和Hive交互、发出HiveQL命令的主要方式。HiveQL 是Hive的査询语言。它是SQL的一种“方言”。它的设计在很大程度上深 受MySQL的影响。因此,如果熟悉MySQL,你会觉得Hive很亲切。

第一次启动Hive时,我们可以通过列出Hive的表来检査Hive是否正常工 作,此时应该没有任何表。命令必须以分号结束,告诉Hive立即执行该 命令:

hive> SHOW TABLES;
OK
Time taken: 10.425 seconds

SQL类似,HiveQL —般是大小写不敏感的(除了字符串比较以外),因此 show tables;和上面的命令效果相同。制表符(Tab)会自动补全Hive的关 键字和函数。

对于全新安装,这个命令会花几秒钟来执行。因为系统采用“懒”(lazy)策 略,所以直到此时才在机器上创建metastore数据库。(该数据库把相关文件 放在运行hive命令那个位置下的目录中。)

也可以以非交互式模式运行Hive外壳环境。使用-f选项可以运行指定文件 中的命令。在这个示例中,我们运行脚本文件script:q:

% hive -f script.q

对于较短的脚本,可用-e选项在行内嵌入命令。此时不需要表示结束的分号:

% hive -e ’SELECT * FROM dummy’Hive history file=/tmp/tom/hive_job_log_tom_201005042112_1906486281.txt
OK
X
Time taken: 4.734 seconds

有一个较小的数据表用于测试査询是很有用的。例如,我们可以用 文本数据测试SELECT表达式中的函数(参见12.5.2节对操作符和函 数的讨论)。下面是一个生成一个单行表的方法:

% echo 'X' > /tmp/dummy.txt
% hive -e ” CREATE TABLE dummy (value STRING); \
LOAD DATA LOCAL INPATH ’/tmp/dummy.txt, \
OVERWRITE INTO TABLE dummy”

无论是在交互式还是非交互式模式下,Hive都会把操作运行时的信息打印输出到标准错误输出(standard error)–例如运行一个查询所花的时间。可以在启动程序的时候使用-S选项强制不显示这些消息,只输出査询结果:

% hive -S -e 'SELECT * FROM dummy'
X

其他比较有用的Hive Shell的特性包括:使用!前缀来运行宿主操作系统的 命令;使用dfs命令来访问Hadoop文件系统。

转载请注明:全栈大数据 » 12.1 安装Hive

喜欢 (0)or分享 (0)
发表我的评论
取消评论

表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址