整套大数据学习资料(视频+笔记)百度网盘无门槛下载:http://www.edu360.cn/news/content?id=3377

5.2.1 管理配置

hadoop 小红牛 11℃ 0评论

开发Hadoop应用时,经常需要在本地运行和集群运行之间进行切换。事实上,可能在几个集群上工作,也可能在本地“伪分布式”集群上测试。伪 分布式集群是其守护进程运行在本机的集群,

应对这些变化的一种方法是使Hadoop配置文件包含每个集群的连接设置,并且在运行Hadoop应用或工具时指定使用哪一个连接设置。最好的做法是,把这些文件放在Hadoop安装目录树之外,以便于轻松地在Hadoop不同版本之间进行切换,从而避免重复或丢失设置信息。

为了方便本书的介绍,我们假设目录co«/包含三个配置文件:Aac/oop-/oca/.xw//jat/oo/?-/oca//ioW.;c7K//z<3rfoop-c/w57er.;cm/(这些文件在本书的范例代码里)。注意,文件名没有特殊要求,这样命名只是为了方便打包配置的设置。(将此与附录A的表A-1进行对比,后者存放的是对应服务器端的配置信息。)

针对默认的文件系统和jobtracker, /2acfoo/?-/oca/.xwl包含默认的Hadoop配置:

<?xml version="l.0"?>

<configuration>

<property>

<name>fs.default.name</name>

<value>file:///</value>

</property>

<property>

<name>mapred.job.tracker</name>

<value>local</value>

</property>

/configuration

hadoop-localhost.xml文件中的设置指向本地主机上运行的namenodejobtracker

<?xml version="l.0"?>

<configuration>

<property>

<name>fs.default.name</name>

<value>hdfs://localhost/</value>

</property>

<property>

<name>mapred.job.tracker</name>

<value>localhost:8021</value>

</property>

</configuration>

最后,hadoop-cluster.xml文件包含集群上namenodejobtracker的详细信息。事实上,我们会以集群的名称来命名这个文件,而不是这里显示的那样用cluster泛指:

<?xml version="l.0"?>

<configuration>

<property>

<name>fs . default • name"name> <value>hdfs://namenode/</value> "property >

<property>

<name>mapred.job.traeker</name> <value>jobtracker:8021</value> </property>

</configuration

还可以根据需要为这些文件添加其他配置信息。例如,如果想为特定的集群设定Hadoop用户名,则可以在相应的文件中进行这些设置。

设置用户标识

HDFS中,可以通过在客户端系统上运行whoami命令来确定Hadoop用户标识identity)。类似,组名groupname)来自groups命令的输出。

如果Hadoop用户标识不同于客户机上的用户账号,可以通过设置hadoop.job.ugi属性来显式设定Hadoop用户名和组名。用户名和组名由一个逗号分隔的字符串来表示,例如preston,directors,inventors表示用户名为preston,组名是directorsinventors

可以使用相同的语法设置HDFS网络接口(该接口通过设置dfs.web.ugi来运行的用户标识。在默认情况下,webuserwebgroup不是超级用户,因此,不能通过网络接口访问系统文件。

注意,在默认情况下,系统没有认证机制。2.4.1节在讲的安全时介绍了如何在Hadoop中使用Kerberos认证。

有了这些设置,便可以轻松通过conf命令行开关来使用各种配置。例如,下面的命令显示了一个在伪分布式模式下运行于本地主机上的HDFS服务器上的目录列表:

%hadoop fs -conf conf/hadoop-localhost.xml -Is .

Found 2 items

drwxr-xr-x – tom supergroup 0 2009-04-08 10:32 /user/tom/input drwxr-xr-x – tom supergroup 0 2009-04-08 13:09 /user/tom/output

如果省略-conf选项,可以从co«/子目录下的$HADOOP_INSTALL中找到Hadoop的配置信息。至于是独立模式还是伪分布式集群模式,则取决于

 

具体的设置。

Hadoop自带的工具支持conf选项,也可以直接用程序(例如运行MapReduce作业的程序)通过使用Tool接口来支持conf选项。

转载请注明:全栈大数据 » 5.2.1 管理配置

喜欢 (0)or分享 (0)
发表我的评论
取消评论

表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址