世间唯变化永恒...分享 http://blog.sciencenet.cn/u/zlhua 世间唯变化永恒,以开朗的心简洁地生活...

博文

EISA 导读:大数据究竟有多大?

已有 4149 次阅读 2015-10-15 19:40 |个人分类:企业智能研究联盟|系统分类:科研笔记

大数据究竟有多大?


今天跟大家分享的是涂子沛先生写的《大数据》,大数据这个词估计大家都听说过,但到底什么是大数据?翻看书的封面,在封面内页底有这样一段话:

大数据(Big Data)

指一般的软件工具难以捕捉、管理和分析的大容量数据,一般以“太字节”为单位。“大数据”之“大”,并不仅仅在于“容量之大”,更大的意义在于:通过对海量数据的交换、整合和分析,发现新的知识,创造新的价值,带来“大知识”、“大科技”、“大利润”和“大发展”。

从上述描述不难看出,在涂先生看来,大数据的大首先是“容量大”,一般以“太字节”为单位;其次是“价值大”,可以发现新知识,创造新价值。那“太字节”究竟是啥意思,以其为单位的数据到底有多大?翻开书第36页,里面有一张表,可以帮助读者理解数据的存储单位。在这张表里,是这样来描述太字节的,太字节的英文标识是TB,大小相当于1024吉字节或240。表中对太字节的含义举了这样一个例子,“美国国会图书馆所有登记的印刷版书本的信息量为15太字节,截至2011年底,其网络备份的数据量为280太字节,这个数据还在以每个月5太的速度递增”。如果上述例子觉得比较难懂,那换个简单点的例子,1太字节的英文标识是1TB。目前比较流行的移动硬盘的容量就是1TB,一般普通品牌的移动硬盘的售价大概在600-800元左右。通常我们存储一部高清电影需要1G,即1吉字节。那一个1TB的移动硬盘可以存储多少部高清电影呢?一千多部,如果你每天看一部,需要花1个半小时的话,那看完1TB的电影需要花费你多少时间?如果你能坚持天天看,1TB容量的电影盘能看2年多。看完这些电影之后,你能增长多少知识

如果上述描述能让你对大数据这个词有那么一点点感觉的话,接下来可能你又会好奇:那计算机又是如何从这些大容量的数据里发现新知识,创造新价值的呢?

接下来,翻到书的第88页,有一张“从数据、信息到知识的演变”图,涂先生首先给出了一个“1.85”数据。然后,给这个数据赋予一个特定的背景,使其成为反映某个人的身高信息。比如,奥巴马身高1.85米。接下来,就可以采集更多的信息,以便提炼出规律,即知识。比如,采集若干黑人男性的身高信息,通过统计方法提炼出如下知识:“大多数黑人男性的身高超过1.85米”。呵呵,看到这个结论之后,我比较奇怪,为什么在成都看到的黑人男性的身高大多都低于1.85米呢?

如果你读了上述这张图之后,还是有点迷糊,那就再继续翻到书第94页。在这一页里给出了一个经典案例,讲述了一个关于零售帝国的故事。哈哈,就是在沃尔玛里曾发生的有关“啤酒和尿布”的故事。啤酒和尿布?听起来的确风马牛不相及,但这却是对沃尔玛某销售历史数据进行挖掘后发现的规律。这种令人费解的结果是否反映的是一个真正的规律呢?经过跟踪调查,研究人员发现:一些年轻的爸爸经常要到超市去购买婴儿尿布,有30%到40%的新爸爸会顺便买点啤酒犒劳自己。为了验证上述发现,沃尔玛随后对啤酒和尿布进行了捆绑销售,不出意料,销售量双双增加。呵呵,有趣吧!上述案例现在已经成为“数据挖掘”的一个经典案例,如果想要知道得更加详细一些, 可以接着往下看,还有很多惊喜等着你,欢迎交流~

张利华

2015年10月15日于翡翠城


推荐阅读:涂子沛著《大数据:正在到来的数据革命,以及它如何改变政府、商业与我们的生活》桂林:广西师范大学出版社,2012.7



https://wap.sciencenet.cn/blog-520919-928392.html

上一篇:屠呦呦老师与AngelaBaby
下一篇:EISA 学中思:高教培二三事
收藏 IP: 125.71.99.*| 热度|

6 蒋永华 许培扬 曾新林 金耀初 陆泽橼 nipy

该博文允许注册用户评论 请点击登录 评论 (5 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-17 07:23

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部