整套大数据学习资料(视频+笔记)百度网盘无门槛下载:http://www.edu360.cn/news/content?id=3377

2.1. 气象数据集

hadoop 花牛 12℃ 0评论

这里要写一个挖掘气象数据的程序。分布在全球各地的很多气象传感器每隔一小时收集气象数据和收集大量日志数据,这些数据是半结构化数据且是按照记录方式存储的,因此非常适合使用Map/Reduce来分析。

数据格式

数据来自美国国家气候数据中心。这些数据按行并以ASCII格式存储,其中每一行是一条记录。该存储格式支持丰富的气象要素,其中许多要素可以选择性地列入收集范围或其数据所需的存储长度是可变的。为了简单起见,我们重点讨论一些基本要素(比如气温),这些要素始终都有而且长度都是固定的。范例2-1显示了一行采样数据,其中重要字段被突出显示。该行数据被分成很多行以突出每个字段,但在实际文件中,这些字段被整合成一行且没有任何分隔符。

范例2-1.国家气候数据中心数据记录的格式

0057
332130 #USAFweatherstationidentifier
99999 #WBANweatherstationidentifier
19500101 #observationdate
0300 #observationtime
4
+51317 #latitude(degreesx1000)
+028783 #longitude(degreesx1000)
FM-12
+0171 #elevation(meters)
99999
V020
320 #winddirection(degrees)
1 #qualitycode
N
0072
1
00450 #skyceilingheight(meters)
1 #qualitycode
C
N
010000 #visibilitydistance(meters)
1 #qualitycode
N
9
-0128 #airtemperature(degreesCelsiusx10)
1 #qualitycode
-0139 #dewpointtemperature(degreesCelsiusx10)
1 #qualitycode
10268 #atmosphericpressure(hectopascals x10)
1 #qualitycode

 

数据文件按照日期和气象站进行组织。从1901年到2001年,每一年都有一个目录,每一个目录中包含各个气象站该年气象数据的打包文件及其说明文件。例如,1999年对应文件夹下面就包含下面的记录:

%Israw/1990|head

010010-99999-1990.gz

010014-99999-1990.gz

010015-99999-1990.gz

010016-99999-1990.gz

010017-99999-1990.gz

010030-99999-1990.gz

010040-99999-1990.gz

010080-99999-1990.gz

010100-99999-1990.gz

010150-99999-1990.gz

因为有成千上万个气象台,所以整个数据集由大量的小文件组成。通常情况下,处理少量的大型文件更容易、更有效,因此,这些数据需要经过预处理,将每年的数据文件拼接成一个单独的文件。

转载请注明:全栈大数据 » 2.1. 气象数据集

喜欢 (0)or分享 (0)
发表我的评论
取消评论

表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址