|
又是一年研究生开学季。和同事闲聊,都说现在女生会考试,普遍比男生成绩高。
有“较真”者,偏要用数字来证明:据说我们学院两个学科“生物医学工程”和“食品科学与工程”共招收了445人,算一算男生和女生哪个考分高(比如总分超过300分的人数)。
计算这个比例得知,男生是202/246=82%,女生是162/199=81%。
看吧,还是男生学习好一点点,还是“阳盛阴衰”啊。
不过更“较真”者,说本科里都是女生“学霸”多,敢报学硕的也多,看看学硕和专硕各自的比例吧:
对于两个专业的学硕,男生是65/88=74%,女生是71/94=76%
对于两个专业的专硕,男生是137/158=87%,女生是91/105=87%
咦,这么看,好像是女生成绩更好些(起码不比男生差)。
也就是说,分学硕和专硕时,女生成绩高、男生成绩低;学硕和专硕加起来,却是男生成绩高、女生成绩低。
问题出在哪呢?
估计懂行的人都看出来了,这是著名的“辛普森悖论”现实版之一,由英国统计学家辛普森于1951年提出的悖论,即在某个条件下的两组数据,分别讨论时都会满足某种性质,可是一旦合并考虑,却可能导致相反的结论。
我们用数学上的条件概率来转换上面的结果:
性别X | 学硕和专硕Y | 成绩300分Z | |
0 | 女 | 只看专硕 | 低于 |
1 | 男 | 只看学硕 | 高于 |
那么,不区分的总体来看:
男生成绩 P(Z=1〡X=1) = 0.82 记为式A
女生成绩 P(Z=1〡X=0) = 0.81 记为式B
只看学硕:
男生成绩 P(Z=1〡X=1, Y=1) = 0.74 记为式①
女生成绩 P(Z=1〡X=0, Y=1) = 0.76 记为式②
只看专硕:
男生成绩 P(Z=1〡X=1, Y=0) = 0.87 记为式③
女生成绩 P(Z=1〡X=0, Y=0) = 0.87 记为式④
为了简化表达,我们把X, Y, Z = 0的情况分别记为X', Y'和X',而X, Y, Z = 1的保持不变。
那么以上6个值依次改写为:
P(Z〡X) = 0.82 式A
P(Z〡X') = 0.81 式B
P(Z〡X, Y) = 0.74 式①
P(Z〡X', Y) = 0.76 式②
P(Z〡X, Y') = 0.87 式③
P(Z〡X', Y') = 0.87 式④
根据概率知识,其中男生总体可分解如下:
P(Z〡X) = P(Z〡X, Y) · P(Y〡X) + P(Z〡X, Y') · P(Y'〡X)
即:
A = ① · P(Y〡X) + ③ · P(Y'〡X)
此式中P(Y〡X)和P(Y'〡X)没有在上面出现过,分别表示男生里学硕的概率和专硕的概率,当然可知P(Y〡X) + P(Y'〡X) = 1。
为了再简化,令Q = P(Y〡X),上式变为:
A = ① · Q + ③ · (1 - Q)
类似的女生情况:
B = ② · P(Y〡X') + ④ · P(Y'〡X')
此式里,P(Y〡X')和P(Y'〡X') 分别表示女生里学硕的概率和专硕的概率,同样P(Y〡X') + P(Y'〡X') = 1,也令Q’ = P(Y〡X'),上式变为:
B = ② · Q’ + ④ · (1 – Q’)
画成坐标系的结果如下:
因此看成分类的话,男生<女生。为什么总体上会男生>女生呢?
我们可以这样认为:男生成绩A在实线①→③上移动,而女生成绩B在点画线②→④上移动。
而且,如正好在“*”处,那么总体上成绩男生A<女生B,与分类时一致;相反地,A > B,与分类时不一致。
很显然,“*”在何处取决于Q和Q’的取值。Q影响男生A,Q’影响女生B。
比如真的是女生学硕多,那么Q’大,B线上的“*”就接近④,如果这时正好是男生学硕少,Q小,A线上的“*”更接近①,正好低于B线上的(如上图显示),那么就是总体上男生就低于女生的,与分类时一致;反之,就不时一致。
换一种不太抽象的解释,原点O分别和A、B的连线分别组成O-①-③和O-②-④两个三角形向量,示意图如下:
因此,不光要看①-②、③-④的比较,还要看连成变量后总的A、B的情况。
我们还可以换一种角度,根据下图,本来我们要考察性别X对成绩Z的影响,但现在增加了学硕/专硕Y的影响:
如果女生真的成绩高,加了区分学硕和专硕这个混扰变量,如果还是保持一致的趋势,一定要满足的条件是:女生报学硕的多,同时男生报学硕的少;否则,就可能发生不一致的情况。
例如上图这样的影响模式,看总体X→Z比加上了“干扰项Y”变成X→Y→Z更合适些。
看来,统计真的会说谎,这个辛普森悖论还有更多的演化版。从当前的实例看,男女生的成绩是差别不大的,基本上是“阴阳和谐”呗,要想成功上岸,还是要靠多努力、多积累。
有言道:If you don’t trust people, you can trust data.
我加一句:If you don’t trust data, you can trust yourself.
(以上参考过各知名视频网站、百科网页、教材专著等,一并致谢。转发请联系我qdong@usst.edu.cn)
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-9 07:12
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社