|
这是科学家做的图吗?
使用图表来表达研究成果,是发表研究成果的常用方法,能够做到简单,明了,一目了然。
柴静的“穹顶之下”在网上引起一阵热议,其中引用的一张图,在科学网上也引起口水飞扬。
本人外行,只有看热闹的份。后来仔细看看那张图Fig.6,有了不吐不快的感觉,也说说两句。
平面二维坐标图只能表达两个独立变量之间的关系。如果有更多的变量,他们之间肯定不是独立的。
看看这张图,满满当当四个数轴都标上了变量。
纵坐标一般表示因变量,代表跟随自变量变化的量。在这个图中,左右纵坐标都用上了。先说说左纵坐标,标注的是“Percent increase(%) ”,而在Figure Caption中又说成“The inter-anual variability of the estimated percent increases in daily mortality”,在Abbreviations中又变成了mortality,好像存心不让人读懂似的。右纵坐标标了个数值方向减小的Concentration,且和左坐标轴一点关系也没有。咋一看还真搞不懂它做什么用,不敢吭声,只能讨教别人,得的答复是:“Fig 6. 右边的坐标是用于标注上面的黑色柱子(显示当年的PM2.5值)。这个信息是额外的补充信息,完全可以去掉。”既然是多余的,放在那里做什么?要想标注P2.5的年平均值,在柱状图的Legend上标个浓度单位不就得啦。PM2.5的legend画成比柱状图的宽很多,也不妥。
再说说横坐标。横坐标一般表示自变量。在这张图上,下横坐标代表时间(年份),而上横坐标标注了PM2.5的年平均值,这PM2.5的年平均值根本是一个无规律的数值,和下横坐标没有任何关系。这图还进行了纵坐标数值(代表死亡率也好,代表死亡率的增加量也好)和时间年份的统计回归分析。请问做这样的回归分析有什么意义?难道是为了做算命先生预测哪年流年不利?是不是故弄玄虚,让人不明觉厉?而人们最关心的是纵坐标数值(代表死亡率也好,代表死亡率的增加量也好)和PM2.5浓度的关系,要做回归分析的是纵坐标数值和PM2.5浓度的关系,应该用PM2.5浓度做横坐标,当然要从小到大顺序。
线性关系是最简单明了的。有人从中读出了“PM2.5值每增加10(单位?),心血管病死亡率平均将上升1.3%,呼吸系统病死亡率将增加0.6%”,这不是线性关系吗?画两条直线,不就得啦?从直线的斜率马上就可以看出变化率。
单调非线性变化也是容易看明白的,例如,如果变化是曲线上升(下降)的,从曲线的切线斜率,也可以看出变化趋势。这张图搞了个3次方的回归,意义在哪?柴静的视频是二次方的回归,还稍微好看一点,可是数据点有太离散,没有什么相关性。
这个图根本不像是一个科学家做的。
柴静的视频,把一个由理论模型搞出的这个图,变成了她静口中的事实:“当pm2.5值升高的时候,人群的死亡率是随之上升的。”误导不小吧?
柴静团队选用这个图来说事,而且还做了修改,看来其中高人也不多啊。
科学探求因果关系,以实验或观测数据来归纳因果关系结论,必须遵守科学归纳法,起码穆勒五法得遵守。
科学探求因果关系,因果关系是必然的、确定的。要得出因果关系,必须应用科学归纳法,所有影响因素可控。而现在的很多情况是影响因素无法控制,所以,很多时候得出的结论不是因果关系。
纵坐标数值(代表死亡率也好,代表死亡率的增加量也好)和PM2.5浓度的年平均值关系图,这样的数据能得出什么结论?况且是没有控制其他因素的条件下。
PM2.5浓度的年平均值和年份又有什么规律?
如果PM2.5年平均浓度和年份有函数关系,而percent increase(%)和PM2.5年平均浓度有函数关系,那么,可以推出percent increase(%)和年份存在函数关系。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-4-19 16:16
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社