闵应骅的博客分享 http://blog.sciencenet.cn/u/ymin 一位IEEE终身Fellow对信息科学及其发展的看法

博文

大数据为什么热门?(120814) 精选

已有 10555 次阅读 2012-8-14 08:19 |个人分类:网络|系统分类:科研笔记| 大数据, Zipf定律

大数据为什么热门?(120814

闵应骅

 最近,“大数据”不仅是科研的热门课题,也是产业界的热门,更受到其他各界的密切关注,例如环境保护、健康医疗、生命科学等许多方面。87-9日参加了在黄山召开的中美环境监测保护、公共健康及灾害恢复研讨会。这个会并不是专谈计算机,或者信息技术,而是谈计算机和信息技术的应用,中美双方都有环境监测保护、公共健康及灾害恢复方面的专家参加。不过这是由澳门大学牵头组织的,不是政府组织的。会上一个热门话题就是大数据。本文企图通俗地介绍一下这个问题。本人也是新学,欢迎批评指正。

数据为什么还有大小?大数据过去叫海量数据。1990年度,数据仓库之父Bill Inmon就开始关注Big Data20089月自然杂志发表“Big Data: Science in the petabyte era”,这个词就算正式提出来了。大数据处理除了数据量非常大以外,就是动态性明显,随时都在变,在不断增加,而数据源多种多样,数据格式非常不同,数据集的大小也非常不同。不过,它们无非是由01组成的向量序列。

大数据为什么会热门呢?有了互联网,照相、摄像、录音设备的普及,和广泛的网上交流,使得数据产生很便宜、很方便,数据量就爆炸性的增长,到2010年,全球进入所谓ZB时代。1TB=1024GB,而1ZB却等于10亿TB。而且,这些数据有的是文本,有的是图形、图像、声音、影视,每一类又有不同的文件格式。这样的大数据涌上来,原来的数据库、数据仓库管理系统都已经不能胜任了。所以,产业界、学术界都热衷于这个问题的解决。Hadoop就是一种解决方案。其实,各个公司都在搞,学术研究也在热烈进行。

要想获取、存储、处理、检索、使用大数据,首先应该科学地来理解全球大数据的特性。 1947年哈佛大学物理学教授齐普夫(G.K.Zipf)说:英文单词的出现频率服从幂律型尾部的分布,即所谓重尾分布,而不是指数型的轻尾分布。随着高速存取和极大的存储空间,大数据有研究说并不服从齐普夫定律,并不是80%的处理都集中在20%的数据集上,而是长尾下降很慢,分布平缓得多。所以,有人提出了所谓延伸的指数分布。不过,有统计说80%的保健收入用在了20%的人身上,80%Web请求是存取20%的网页。可能不同的流有不同的分布。大数据的管理和分析,以及各种算法的设计都应该以可扩展性作为第一要务。目前,许多大公司都推出了大数据分析产品。而对科研人员来说,光用公司的工具可能还是不够或者有欠缺的。

有兴趣的读者建议参考斯坦福大学J.D.Ullman教授等人2011年出版的新书:Mining of Massive Datasets, 341 pages。该书可以在网上下载。



https://wap.sciencenet.cn/blog-290937-601984.html

上一篇:劳力啃老(120730)
下一篇:超级计算机有什么用?(120820)
收藏 IP: 106.3.102.*| 热度|

30 许培扬 李伟钢 武夷山 赵金丽 赵凤光 王伟 刘明颖 俞立 刘凡丰 密铁宾 黄荣彬 王芳 黄富强 黄华军 岳金星 姚占雷 鲍海飞 李杰 肖振亚 李汝资 刘钢 王志杰 庄世宇 唐朝生 刘玉强 孙静宇 唐常杰 崔晓聪 Medichen dulizhi95

该博文允许注册用户评论 请点击登录 评论 (24 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-15 08:25

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部