|||
何谓阉割数据,就是将本来很好的原始数据进行排序、分类等处理后,变成残缺的数据,然后在此基础上做进一步的计量分析。
其实,从数据处理角度,将数据加工变成信息,本来是一件好事。但是,如果要在以上基础上对数据进行进一步分析,那么就犯错误了,举个例子:
研究企业发明专利与企业研发投入的关系,调查了若干企业,得到了原始数据。接下来先将企业发明专利和企业研发经费分别排序,然后做研发经费排序与企业发明专利排序之间非参数检验。这就错了。
打个比方,木匠做栅栏,需要若干根等长的木棍。先量好A木棍的长度,然后以此为标尺锯若干等长的木棍,如果一直用A木棍比照去进行加工,这是最科学的;如果先比照A木棍的长度加工好B木棍,再用B木棍的长度比照去加工C木棍,再用C木棍的长度比照去加工D木棍……那么哪种情况误差更大?
这个问题,对一些计量掌握不好的学者而言其实是相对普遍的现象,但由于问题是隐含的,往往自己不知道,审稿专家一般也不会注意到。
以上是明显阉割数据问题,其实还有隐含阉割数据问题。再举个例子:
研究Y与X1、X2、X3、X4的关系,不是在一个方程中进行分析,而是分别研究Y与X1的相关性、Y与X2的相关性、Y与X3的相关性、Y与X4的相关性,那么,我告诉你,这也错了,典型的盲人摸象。
方法的错误是根本的,然而,我们有太多方法的错误是觉察不到的。如果一般期刊发表该类论文还可以理解,权威期刊务必要注意这个问题。
2012.11.23 俞立平 于宁波
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-5-29 18:27
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社