整套大数据学习资料(视频+笔记)百度网盘无门槛下载:http://www.edu360.cn/news/content?id=3377

第1章 何谓大数据

1.1 身边的大数据

小可

王老师,那什么是大数据呢?

Mr.王

你还真是一下就问了个很复杂的问题。其实大数据是一个很模糊的概念,很多学者和学术组织都对其提出过自己的定义,但是至今还没有公认的定义。我们先不谈确切的定义,先来举几个例子说明吧。你平常用社交网络吗?

小可

嗯,是的。

Mr.王

你有很多好友吧?他们是不是每天都会发很多的状态和消息?

小可

是的,甚至有很多新闻我都是首先通过社交网络知道的。社交网络传递信息的速度真的很快,朋友们每天发布的状态我都看不完,而且不仅有原创的内容,还有很多来自他们好友的转载内容。

Mr.王

其实社交网络上的这些信息就是一种典型的大数据。

小可惊讶地说:

原来这就已经是大数据了?我一直以为大数据都在实验室里面呢。

Mr.王

此言差矣,其实大数据就在我们身边。我们常用的社交网络上就有着非常巨大的信息量,虽然一个人发布的状态非常有限,但由于使用的人数众多,加之转载和评论,巨大的数据规模就使得社交网络信息无法在短时间内由人工或者由少量的几台计算机存储和管理。站在社交网络之外看待它,就会发现里面有很多且杂乱无章的信息和内容,同时其规模非常大。这就是大数据的一个典型例子。

 

小可恍然大悟地说道:

哦,原来这就是大数据啊,那其实我每天都在接触大数据。


Mr.王笑道:

的确,大数据就在我们每个人的身边,随着信息时代的到来,我们每个人每天接触到的数据量都是非常大的。但你在查看这些消息的时候,有没有看到除字面内容以外的东西呢?

 

小可想了一下,说:

好像没有什么,我关注的只是消息本身。

Mr.王

我们研究大数据不只是能知道它的数据量很大,或者说仅仅研究如何把它们存储起来,我们还要发掘在大数据中隐藏的知识和有价值的信息。

 

小可

哦?大数据中隐藏着知识?

Mr.王

是的,从表面上看,大数据可能只是一些简单的文本、杂乱的符号或者是一些数字的序列或者集合,但是从这些文本或者数字的背后,我们可以发掘其作为一个群体所具有的一些性质,从而发现一些对我们有意义、有价值的信息,所以我们才要研究大数据。

小可

大数据不是很大很大吗?那么我们研究它不就会变得很困难吗?

Mr.王

不错,大数据的量很大很大,我们单单是把其中的信息逐个地访问一遍都很困难,所以发掘其中的知识就更加困难了,这就是研究大数据要解决的重要问题,也就需要我们这些研究大数据的人、热爱大数据的人加倍地努力了。

 

小可思考片刻后,说:

那在超市里面,每年都会有很多人去买东西,他们的购物单上又会包含着很多内容,对超市来说,这些购物的记录就是“大数据”吧?而通过分析这些购物单,发现顾客更喜欢买哪些商品,这算不算一种通过大数据分析出的知识呢?

Mr.王

很聪明嘛,你举了一个很好的例子。商业数据也是大数据的一个重要体现,超市购物的明细记录、公司运营的详细账目这些数据量都是很大的,处理起来非常费时费力,而其中又包含着有价值的信息,通过这些信息不仅可以分析出本年度公司的运营情况,同时可以指导下一年度公司的营销战略,这些数据对公司来说可谓是价值连城。

小可

那么大数据在别的方面又有哪些体现呢?

Mr.王

你应该对生物遗传有所了解吧。

小可点点头道:

是的,人体通过DNA携带遗传信息。

Mr.王

在医疗和生物计算领域中,每次对DNA序列的分析都会产生大量的数据,这个数据量已经不是用GB可以衡量的了,甚至要达到PB级别或者更大。而这么大的数据,不仅计算机的内存装不下,而且一般计算机的硬盘都已经存不下了。即使是扫描一遍,在上面发现一个小序列都需要一些时间,在这些数据上面做分析将是一件更困难的事情。这也是一种大数据。不仅在生物学中如此,而且在很多科学仪器的使用过程中也都会产生大量的数据,比如天文观测、显微观测,现在逐渐应用的传感器和传感器网络在使用过程中都会记录下大量的数据。

这些仪器不停地记录下的数据,都涉及如何存储、如何分析研究的问题,这些都是大数据。

 blob.png

小可

嗯。

Mr.王

那我们就给大数据下个定义吧。

定义1:所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理并整理成为人类所能解读的信息。

定义2:不用随机分析法(抽样调查)这样的捷径,而采用所有数据的方法。(维克托·迈尔-舍恩伯格、肯尼斯·库克耶,“大数据时代”)

定义3:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。(“大数据”(Big Data)研究机构Gartner)

有了前面的那些例子,这些定义是不是相对好理解一些呢?

小可

嗯,我懂了。

1.2 大数据的特点和应用

Mr.王

大数据具有较大的数据量,和一般的数据相比,其具有如下一些特点。

blob.png

在数据量上,大数据是通过各种设备产生的海量数据,其数据规模极为庞大,远大于目前互联网上的信息流量,级别将是大数据的常态。

在多样性上,大数据种类繁多,在编码方式、数据格式、应用特征等多个方面存在差异性,多信息源并发形成大量的异构数据。

在速度上,涉及感知、传输、决策、控制开放式循环的大数据,对数据实时处理有着极高的要求,通过传统数据库查询方式得到的“当前结果”很可能已经没有价值。

在价值上,数据持续到达,并且只有在特定时间和空间中才有意义。

Mr.王

我们分析大数据、研究大数据,是希望能够利用它们获得我们需要的知识。我们可以利用大数据进行:

预测

推荐

商业情报分析

科学研究

等发现大数据中的价值,使用大数据、利用大数据的过程。由此可知,对大数据的研究还是非常重要而有意义的。

小可

有种大数据中有黄金的感觉啊。

Mr.王

正是如此,从大数据中挖掘出来的价值,真是难以估量啊。今天时间不早了,你先回去吧,下节课咱们讨论一下关于算法的问题,要讨论大数据算法,必须先了解算法的相关知识。

小可

谢谢老师,那我下次再来。

 

转载请注明:全栈大数据 » 第1章 何谓大数据

喜欢 (2)or分享 (0)
发表我的评论
取消评论

表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址