|||
闵应骅
最近,“大数据”不仅是科研的热门课题,也是产业界的热门,更受到其他各界的密切关注,例如环境保护、健康医疗、生命科学等许多方面。8月7-9日参加了在黄山召开的中美环境监测保护、公共健康及灾害恢复研讨会。这个会并不是专谈计算机,或者信息技术,而是谈计算机和信息技术的应用,中美双方都有环境监测保护、公共健康及灾害恢复方面的专家参加。不过这是由澳门大学牵头组织的,不是政府组织的。会上一个热门话题就是大数据。本文企图通俗地介绍一下这个问题。本人也是新学,欢迎批评指正。
数据为什么还有大小?大数据过去叫海量数据。1990年度,数据仓库之父Bill Inmon就开始关注Big Data。2008年9月自然杂志发表“Big Data: Science in the petabyte era”,这个词就算正式提出来了。大数据处理除了数据量非常大以外,就是动态性明显,随时都在变,在不断增加,而数据源多种多样,数据格式非常不同,数据集的大小也非常不同。不过,它们无非是由0,1组成的向量序列。
大数据为什么会热门呢?有了互联网,照相、摄像、录音设备的普及,和广泛的网上交流,使得数据产生很便宜、很方便,数据量就爆炸性的增长,到2010年,全球进入所谓ZB时代。1TB=1024GB,而1ZB却等于10亿TB。而且,这些数据有的是文本,有的是图形、图像、声音、影视,每一类又有不同的文件格式。这样的大数据涌上来,原来的数据库、数据仓库管理系统都已经不能胜任了。所以,产业界、学术界都热衷于这个问题的解决。Hadoop就是一种解决方案。其实,各个公司都在搞,学术研究也在热烈进行。
要想获取、存储、处理、检索、使用大数据,首先应该科学地来理解全球大数据的特性。 1947年哈佛大学物理学教授齐普夫(G.K.Zipf)说:英文单词的出现频率服从幂律型尾部的分布,即所谓重尾分布,而不是指数型的轻尾分布。随着高速存取和极大的存储空间,大数据有研究说并不服从齐普夫定律,并不是80%的处理都集中在20%的数据集上,而是长尾下降很慢,分布平缓得多。所以,有人提出了所谓延伸的指数分布。不过,有统计说80%的保健收入用在了20%的人身上,80%的Web请求是存取20%的网页。可能不同的流有不同的分布。大数据的管理和分析,以及各种算法的设计都应该以可扩展性作为第一要务。目前,许多大公司都推出了大数据分析产品。而对科研人员来说,光用公司的工具可能还是不够或者有欠缺的。
有兴趣的读者建议参考斯坦福大学J.D.Ullman教授等人2011年出版的新书:Mining of Massive Datasets, 341 pages。该书可以在网上下载。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-5-15 08:25
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社