俞立平博客——邗上居分享 http://blog.sciencenet.cn/u/yuliping 科技评价、技术创新、信息经济 镜像博客:http://www.yuliping.com

博文

请不要阉割数据 精选

已有 5692 次阅读 2012-11-23 21:55 |个人分类:科研心得|系统分类:科研笔记| 数据, 阉割

 

何谓阉割数据,就是将本来很好的原始数据进行排序、分类等处理后,变成残缺的数据,然后在此基础上做进一步的计量分析。

其实,从数据处理角度,将数据加工变成信息,本来是一件好事。但是,如果要在以上基础上对数据进行进一步分析,那么就犯错误了,举个例子:

研究企业发明专利与企业研发投入的关系,调查了若干企业,得到了原始数据。接下来先将企业发明专利和企业研发经费分别排序,然后做研发经费排序与企业发明专利排序之间非参数检验。这就错了。

打个比方,木匠做栅栏,需要若干根等长的木棍。先量好A木棍的长度,然后以此为标尺锯若干等长的木棍,如果一直用A木棍比照去进行加工,这是最科学的;如果先比照A木棍的长度加工好B木棍,再用B木棍的长度比照去加工C木棍,再用C木棍的长度比照去加工D木棍……那么哪种情况误差更大?

这个问题,对一些计量掌握不好的学者而言其实是相对普遍的现象,但由于问题是隐含的,往往自己不知道,审稿专家一般也不会注意到。

以上是明显阉割数据问题,其实还有隐含阉割数据问题。再举个例子:

研究YX1X2X3X4的关系,不是在一个方程中进行分析,而是分别研究YX1的相关性、YX2的相关性、YX3的相关性、YX4的相关性,那么,我告诉你,这也错了,典型的盲人摸象。

方法的错误是根本的,然而,我们有太多方法的错误是觉察不到的。如果一般期刊发表该类论文还可以理解,权威期刊务必要注意这个问题。

 

                                                                                       2012.11.23 俞立平 于宁波

 

 



https://wap.sciencenet.cn/blog-45134-635598.html

上一篇:人文社科论文的质量与数量:从学者个人的角度
下一篇:请敬畏“研究”两字
收藏 IP: 115.220.174.*| 热度|

11 王芳 戎可 高常军 赵美娣 霍艾伦 何学锋 许海云 王春艳 赵凤光 魏瑞斌 贡金涛

该博文允许注册用户评论 请点击登录 评论 (10 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-29 18:27

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部