闵应骅的博客分享 http://blog.sciencenet.cn/u/ymin 一位IEEE终身Fellow对信息科学及其发展的看法

博文

去粗取精 去伪存真(140512)

已有 8349 次阅读 2014-5-12 08:21 |个人分类:网络|系统分类:科研笔记| 大数据, 数据处理

去粗取精  去伪存真(140512

闵应骅

 

   五一节前后,被邀回了一次湖南,五年没回去了。觉得,真是故乡的山,故乡的水,故乡的风景格外美。那树都是绿油油的,不像北京的树,好像渴得等着天老爷下雨来浇灌。家乡农村的水还是那么清澈,感觉好极了。但是,湖大校园里的车那是满满的,无所谓交通规则。因为只有交,没有通。一定要前面的车走动,自己才能动。作为千年学府,湖大校园很美,老楼留着,又整修出了一个漂亮的湖。新楼也不少,就是挤得慌。我在岳麓书院院子里看到一盘盆景,那么浅的一个盘,有30厘米高的小树下面只有两厘米的土(如下图),不知道为什么能支撑得住?

   我在湖大曾兼职过6年,学生很多。他们大多已是副教授、教授、博士生导师。就这几天,集中进行了几天的学术交流。我也从他们那里学习了许多东西。谢鲲副教授告诉我,他与人合作的一篇文章被ICDCS2014录取。分布式计算系统国际会议(ICDCS)是IEEE系列国际会议,已经开了33届,今年第34届,在西班牙召开。这次投文500+篇,取了66篇,录取率为13%。我数了一下,中国人的文章取了35篇,占录取文章的53%。这就是说中国人的文章占了一多半。这怎么解释呢?是不是说中国在分布式计算系统方面中国已经世界第一了?恐怕不能这么说,但是中国的科研大有进步是真的,不过,中国追求论文数量恐怕应该算世界第一。不管怎么说,这是一个很严肃的国际会议。他们这篇文章就是研究数据分析中去粗取精、去伪存真的问题。他们拿到湖南株洲2011-2013196个气象传感器每小时采样一次的数据,包括天气、温度、湿度、雨量等数据。这些数据当然够多的,目的无非是做天气预报、灾害预报。问题是许多点的数据可能丢失,噪声大,误差大,非去粗取精、去伪存真不可。从基本建设角度讲,建这么些点是多了,还是少了。这就是需要分析这些数据。即使在有物联网的情况下,这些问题也要研究,也许是更需要研究。

   我对他们这一研究感兴趣,拿来文章粗看了一下。他们观察到,如果以各点数据为列,时间点为行,任意一段时间组成的矩阵是低秩的。说明各行、各列的数据相关性很高,缺了一些数据也无所谓。但是,关键数据不能少,借此还可以识别错误数据。其次,他们观察到增加一观察点或增加一个时刻,这个矩阵的秩最多增加或减少1,有时间稳定性,和秩的稳定性,不会突变。所以,他们提出了在线气象数据收集的矩阵填充算法,尽量节省采样传感器和采样次数。这些想法就很好。即使在物联网环境下,有大数据处理能力,也不是收集数据越多越好。没有用的数据何必浪费资源去收集和分析呢?所以,大数据技术有一个有效性的问题。不应该浪费资源,不应该做无用功。

毛泽东在《实践论》中说:将丰富的感觉材料加以去粗取精、去伪存真由此及彼、由表及里的改造制作工夫。这是他对待古今中外历史文化的原则,吸收熔铸古今中外文化,涵养内心坚定的民族之魂。这个原则很正确,在科学的数据分析中也适用。但这仅仅是一个原则,真要施行就需要许多科学研究了。譬如,在一大堆数据中,去伪存真,哪些是伪、哪些是真?用什么规则来鉴别真伪?再说去粗取精,什么数据是粗,什么数据是精?的确,有许多数据是没用的,可以去掉,有些是精华,对结论的贡献最大。可鉴别精粗,难度很大。对不同种类的数据,提出形式的方法,才能算法化。没有形式的鉴别,自己选择一些数据,你基本上可以想统计出什么结论就可以有什么结论,流于先有结论,后有数据。这就不是科学的方法,你得出的结论也就不可信。




https://wap.sciencenet.cn/blog-290937-793580.html

上一篇:大数据与环保(140428)
下一篇:分类排比不要模糊(140519)
收藏 IP: 111.161.17.*| 热度|

25 袁海涛 孙学军 陈杰 许培扬 张忆文 刘晓锋 王小平 马冠一 彭思龙 李天成 李健 吴斌 赵美娣 赵凤光 武夷山 黄华军 肖振亚 蒋大和 罗汉江 李盟盟 杨顺楷 杨正瓴 仲银鹏 xqhuang yunmu

该博文允许注册用户评论 请点击登录 评论 (8 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-18 10:46

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部