整套大数据学习资料(视频+笔记)百度网盘无门槛下载:http://www.edu360.cn/news/content?id=3377

1.1 数据!数据!

hadoop 花牛 21℃ 0评论

我们生活在这个数据大爆炸的时代,很难估算全球电子设备中存储的数据 总共有多少。国际数据公司(IDC)曾经发布报告称,2006年数字世界(digital universe)项目统计得出全球数据总量为0.18 ZB并预测在2011年将达到 1.8 ZB。®1 ZB 等于 1021 字节,等于 1000 EB(exabytes), 1 000 000 PB (petabytes),等于大家更熟悉的10亿TB(terrabytes)!这相当于全世界每人 一个硬盘中保存的数据总量!

数据“洪流”有很多来源。以下面列出的为例:

  • 纽约证交所每天产生的交易数据多达1 TB

  • 脸谱网(Facebook)存储的照片约100亿张,存储容量约为1 PB

  • 家谱网站Ancestry.com存储的数据约为2.5 PB

  • 互联网档案馆(The Internet Archive)存储的数据约为2 PB,并以每 月至少20 TB的速度持续增长

  • 瑞士日内瓦附近的大型强子对揸机每年产生的数据约为15 PB

 

还有其他大量的数据。但是你可能会想它对自己又有哪些影响呢?地球人 都知道,大部分数据都严密锁存在一些大型互联网公司(如搜索引擎公司)或 科学机构与金融机构中。难道所谓的“大数据”只影响小机构和个人?

我个人是这样认为的。以照片为例,我妻子的爷爷是一个骨灰级的摄影爱 好者。在成年之后,他一直都在拍照。他的整个相册,包括普通胶片、幻 灯片、35mm胶片,在扫描成高分辨率的图片之后,大约有10 GB。相比之 下,在2008年,我家用数码相机拍摄的照片总共有5 GB。对照爷爷的照 片生成速度,我家是他老人家的35倍!并且,而且这个速度还在不断增长 中,因为现在拍照片真的是越来越容易了。

微软研究院的 MyLifeBits 项目显示,在不久的将来,个人信息档案将日益普及。MyLifeBits 的一个实验是获取和保存个人的对外联系情况(包括电话、邮件和文件),供日后存取。收集的数据中包括每分钟拍摄的照片等,数据量每月约为 1GB。当存储成本急剧下降以至于可以存储音频和视频时,MyLifeBits项目在未来的存储的数据量将是现在的很多倍。

保存个人成长过程中产生的所有数据似乎逐渐成为主流,但更重要的是, 计算机产生的数据可能远远超过我们个人所产生的。机器日志、RFID检测仪、传感器网络、车载GPS和零售交易数据等——所有这些都将产生巨量的数据。

Astrometry.net主要査看和分析Flickr网站上星空机器人小组所拍摄的星空照片。它对每一张照片进行分析并能辨别出它来自星空或其他天体(例如恒星和银河系等)的哪一部分。虽然这项研究尚处于试验阶段,但也表明如果可用的数据足够多(在本例中,为加有标签的图片数据),通过它们而产生的后续应用也许会超乎这些拍照片的人最初的想象(图片分析)。

有句话说得好:“大数据胜于好算法。”意思是说对于某些应用(譬如根据以往的偏好来推荐电影和音乐),不论算法有多牛,基于小数据的推荐效果往往都不如基于大量可用数据的一般算法的推荐效果。

现在,我们已经有了大量数据,这是个好消息。但不幸的是,我们必须想方设法好好地存储和分析这些数据。

转载请注明:全栈大数据 » 1.1 数据!数据!

喜欢 (0)or分享 (0)
发表我的评论
取消评论

表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址