博文

不讲相似性，极易误导人精选

已有 3830 次阅读 2022-2-15 23:58 |系统分类:科研笔记

在心理学研究中，关注、考察、报告群体之间的相似性有何重要意义呢？或者，反过来问，不关注、不考察、不报告群体之间的相似性，就像现在的绝大多数心理学研究那样，会有什么不当呢？简单地说，很有可能把人类不同群体之间的微小差异，当成很大差异，进而当成重要发现，乃至重大发现。如此的心理学研究结果，可能是对人类行为与意识有偏的、片面的、甚至错误的描述。

这是真的吗？请看一项研究（Hanel, Maio, & Manstead, 2019）：

研究者为了阐明在心理学研究中计算相似性指标的作用和意义，以一个大型数据库为基础，检验性别、年龄、教育水平、收入、国家、宗教信仰等6个类别在22个因变量上的相似性。选择这些类别和变量的考虑是，它们在研究报告中常常显示存在显著差异。如果在检验中有高度相似的证据，那么，这样的结果就能为以前关于差异的结论提出重要警示。

该研究采用的指标主要是PCR、AE和d。其中，PCR表示两个群体的分布重叠情况的百分比，AE是由最大可能差异的百分比表达的中数差异，d是效应量。如果PCR>50，并且AE<50，那么，两个群体之间的相似性大于差异性；如果PCR<50，并且AE>50，那么，两个群体之间的差异性大于相似性（Hanel, Maio, & Manstead, 2019）。

在这项研究中，被试来自60个国家，N=86,272，平均年龄=41.68，SD=16.58。自变量是性别（男，女）、年龄（分为10组）、教育水平（分为9类）、收入（分为10类）、国家（60个国家）、宗教信仰（7种）。22个因变量包括10类价值观（Schwartz, 1992）和12个其他变量（比如，人际信任、科学信任、对个人性行为的道德态度、对家庭暴力的道德态度）。

研究者对任一特定类别（比如，国家）进行成对比较（两两比较），计算PCR、AE和d等统计量。例如，成对比较60个国家，得到每个统计量和变量的1,770个比较。对于其余5个领域，他们做了148个成对比较：宗教21个、性别1个、教育水平36个、收入45个、年龄45个。

结果表明，如预期的那样，类别之内的相似性水平都是高的。对于所有变量，两个群体之间PCR的中数是95.00（M=93.30，SD=5.37，全距=71~100，AE=2（M=5.45，SD=0.07，全距=0~20），不仅说明相似性大于差异性，而且存在大的相似性。在41,821个成对比较中，只有274个（占0.66%）的PCR<50，AE>50；它们都在国家类别的比较中。

对于国家来说，所有22个变量的PCR均值=84（全距=71~90），AE的均值=14（全距=0~20）。PCR最小且AE最大的两个变量是对个人性问题的道德态度和对家庭暴力的道德态度：PCR分别为6（95%CI[4,7]）和28（95%CI[23,33]）；AE分别为67（95%CI[65,69]）和41（95%CI[41,41]）。由此可见，对于涉及的60国家，两两之间在22个变量上的相似性大于差异性。

对于宗教信仰来说，22个因变量的相似性是大的，平均的PCR=91，全距=84~96，平均的AE=5，全距=0~20。最小的PCR是对家庭暴力的道德态度，PCR=66，95%CI[63,68]，AE=22，95%CI[19,22]。显然，对于7种宗教信仰，两两之间在22个变量上的相似性大于差异性。

对于收入来说，22个因变量的相似性是大的，平均的PCR=96，全距=92~98，平均的AE=4，全距=0~20。相似性最小的是政治态度，PCR=79，95%CI[76,82]；AE=22，95%CI[22,33]，收入第二低的群体（M=5.44，中数=5）比收入最高的群体（M=6.77，中数=7）有更强的左倾态度。可见，不同收入群体对22个变量上的相似性大于差异性。

对于教育水平，各个群体之间的相似性是大的，平均的PCR=96，全距=91~98，平均的AE=2，全距=0~10。最小的相似性是对个人性行为的态度，PCR=74，95%CI[73,75]；AE=19，95%CI[17,19]，教育水平最低的群体报告最不合理（M=2.50，中数=2.00），教育水平最高的群体报告相对更合理（M=3.94，中数=3.67）。可见，不同教育水平群体对22个变量上的相似性大于差异性。

对于性别，男女的相似性也是大的，平均的PCR=97，全距=90~100，平均的AE=3，全距=0~20。最小的相似性是激励（stimulation）价值观，PCR=90，95%CI[90,91]；AE=20，95%CI[20,20]，女性评价得（M=3.87，中数=4）不如男性评价得（M=3.49，中数=3）重要（数字越小越重要）。

对于年龄，各个群体之间的相似性也是大的，平均的PCR=96，全距=88~99，平均的AE=4，全距=0~20。最小的相似性也是激励价值观，PCR=65，95%CI[64,66]；AE=40，95%CI[40,40]，1946年及更早出生的人评价得（M=4.36，中数=5）不如1990年之后出生的人评价得（M=3.02，中数=3）重要（数字越小越重要）。

为了确定哪些类别的相似性最大，研究者比较22个变量上6个类别之间的PCR和AE。也就是说，把22个变量当成个案（case），对PCR和AE进行6水平的重复测量方差分析。由于违背球形假设，进行了Greenhouse-Geisser校正。结果表明，PCR和AE均存在显著的类别差异：对PCR来说，F(2.46,51.72)=85.57，p<.001，η²=.80；对AE来说，F(3.80,79.81)=15.63，p<.001，η²=.43。对于两个统计量，成对比较显示，国家之间的相似性小于其他类别各个群体之间的相似性（p<.001）。

具体而言，国家彼此之间的相似性（PCR的均值=84，AE的均值=14）小于宗教之间的相似性（PCR的均值=90，AE的均值=6）、收入群体之间的相似性（PCR的均值=96，AE的均值=4）、教育水平之间的相似性（PCR的均值=96，AE的均值=2）、男女之间的相似性（PCR的均值=97，AE的均值=3）、年龄之间的相似性（PCR的均值=96，AE的均值=4）。

总之，对于所有的变量，当比较不同性别、年龄、教育水平、收入、国家、宗教信仰时，平均的PCR=93。这种高水平的相似性，得到了AE的确证。AE的中数表明，对于所有类别和所有变量，任何两个群体之间的差异，都只有量尺可能差异的1/12。

特别地，如果研究者只呈现所有的成对比较，而没有PCR和AE的结果，并且仅仅关注于量化差异的效应量（比如，d值），那么，得到的结论将是：国家之间的差异（平均的d=.39）大于其他类别群体之间的差异（宗教信仰的平均d=.23、收入的平均d=.11、教育水平的平均d=.09、性别的平均d=.07、年龄的平均d=.10）。这样的关注将会描述一种完全不同的情形，即关注那些大效应量，而忽略更多的小效应量。这样的研究取向，不仅使大多数结果由于小效应量而不能引起注意，即，无法发表，而且由于关注大效应量而掩盖许多情况的相似性都是很大的事实。

总之，把PCR和AE加到结果分析中，能够把d值、p值和/或贝叶斯因子放在合理的框架里进行解释，从而，更合理、更全面地解释研究发现，而不是呈现一种极可能误导读者的研究报告。

参考文献

Hanel, P. H. P., Maio, G. R., & Manstead, A. S. R. (2019). A new way to look at the data: Similarities between groups of people are large and important. Journal of Personality and Social Psychology, 116, 541-562.

转载本文请联系原作者获取授权，同时请注明本文来自李宏翰科学网博客。
链接地址：https://wap.sciencenet.cn/blog-2619783-1325468.html

上一篇：描述相似性，有些新指标
下一篇：哪种呈现法，更容易理解？

收藏 IP: 113.13.45.*| 热度|

moralscience的个人博客分享 http://blog.sciencenet.cn/u/moralscience

博文

不讲相似性，极易误导人精选

当前推荐数：14 推荐人：李世斌 王平平 尤明庆 侯丹 程少堂 张晓良 范振英 张鹰 孙颉 杨韩 杨正瓴 张俊鹏 李毅伟 马鸣

该博文允许注册用户评论请点击登录评论 (0 个评论)

李宏翰

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

moralscience的个人博客分享 http://blog.sciencenet.cn/u/moralscience

博文

不讲相似性，极易误导人 精选

当前推荐数：14 推荐人： 李世斌 王平平 尤明庆 侯丹 程少堂 张晓良 范振英 张鹰 孙颉 杨韩 杨正瓴 张俊鹏 李毅伟 马鸣

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

李宏翰

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

不讲相似性，极易误导人精选

当前推荐数：14 推荐人：李世斌王平平尤明庆侯丹程少堂张晓良范振英张鹰孙颉杨韩杨正瓴张俊鹏李毅伟马鸣

该博文允许注册用户评论请点击登录评论 (0 个评论)