整套大数据学习资料(视频+笔记)百度网盘无门槛下载:http://www.edu360.cn/news/content?id=3377

5.5.2 启动作业

hadoop 小红牛 7℃ 0评论


为了启动作业,我们需要运行驱动程序,使用-conf选项来指定想要运行作业的集群(同样,也可以使用-fs-jt选项):

%unset HADOOP_CLASSPATH

%hadoop jar hadoop-examples.jar v3.MaxTemperatureDriver \

-conf conf/hadoop-cluster.xml input/ncdc/all max-temp

我们不设置HADOOP_CLASSPATH环境变量是因为对于该作业没有任何第三方依赖。如果它被设置为/target/classes/(本章前面的内容),那么当Hadooptarget/classes而不是从JAR装载MaxTempratureDriver类时,Hadoop将找不到作业的JAR,从而导致作业失败。

]〇b上的waitForCompletion()方法启动作业并检査进展情况。如果有任何变化,就输出一行mapreduce进度总结。输入如下(为了清楚起见,有些行特意删除了):

09/04/11
08:15:52INFO mapred.FilelnputFormat:Total input paths to process : 101
09/04/11 08:15:53 INFO mapred.DobClient: Running job:
job_200904110811_0002 09/04/11 08:15:54 INFO mapred.JobClient:
map0%reduce0%

09/04/11 08:16:06 INFO mapred.DobClient: map28%reduce0%

09/04/11 08:16:07 INFO mapred.DobClient: map30%reduce0%

09/04/11 08:21:36 INFO mapred.DobClient: 09/04/11 08:21:38 INFO mapred.DobClient:Dob

09/04/11
08:21:38 INFO mapred.DobClient: 09/04/11 08:21:38 INFO
mapred.DobClient: 09/04/11 08:21:38 INFO mapred.DobClient: 09/04/11
08:21:38 INFO maprecKDobClient: 09/04/11 08:21:38 INFO mapred.DobClient:
09/04/11 08:21:38 INFO mapred.DobClient: 09/04/11 08:21:38 INFO
mapred.3obClient: 09/04/11 08:21:38 INFO mapred.DobClient: 09/04/11
08:21:38 INFO mapred.DobClient: 09/04/11 08:21:38 INFO mapred.DobClient:
09/04/11 08:21:38 INFO mapped.DobClient: 09/04/11 08:21:38 INFO
mapred.DobClient: 09/04/11 08:21:38 INFO mapred.DobClient: 09/04/11
08:21:38 INFO mapred.DobClient: 09/04/11 08:21:38 INFO mapred.DobClient:
09/04/11 08:21:38 INFO mapred.DobClient: 0*9/04/11 08:21:38 INFO
mapred. DobClient: 09/04/11 08:21:38 INFO mapred.DobClient:

 

09/04/11
08:21:38INFO mapred.DobClient:09/04/11 08:21:38 INFO mapred.DobClient:
09/04/11 08:21:38 INFO mapped.DobClient: 09/04/11 08:21:38 INFO
mapred.JobClient: 09/04/11 08:21:38 INFO mapred.DobClient:

输出包含很多有用的信息。在作业开始之前,打印作业ID;如果需要在日志文件中或通过hadoopjob命令查询某个作业,必须要有ID信息。作业完成后,统计信息(例如计数器)被打印出来。这对于确认作业是否完成是很有用的。例如,对于这个作业,大约分析275GB输入数据(“Mapinput bytes),读取了HDFS大约34GB压缩文件(HDFS_BYTES_READ)。输入数据被分成101个大小合适的gzipped文件,因此即使不能划分数据也没有问题。..

作业、任务和任务尝试ID

作业ID的格式包含两部分:jobtracker(不是作业的)开始时间和唯一标识此作业的由jobtracker维护的增量计数'器。例如:ID_job_200904110811_0002的作业是第二个作业(0002,作业丨D1开 始),jobtracker2009年4月11日08:11开始运行这个作业。计数器 的数字前面由0开始,以便于作业ID在目录列表中进行排序。然而,计数器达到

asktracker产生并运行的先后顺序。

如果在jobtracker重启并恢复运抒作业后,作业被重启,那么任务尝试ID中最后的计数值将从1000递增。该动作默认是不可用的,参见

6.2.1节。

 

i CompU<*d

转载请注明:全栈大数据 » 5.5.2 启动作业

喜欢 (0)or分享 (0)
发表我的评论
取消评论

表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址