一、《测量不确定度表示指南》现行版
《测量不确定度表示指南》(英文名称:“Guide to the Expression of Uncertainty in Measurement”)是国际标准化组织(ISO) 联合7个国际组织于1993年发布的(以下简称《指南》)。在这之前,世界各国测量学界对于如何表示测量结果及其误差没有统一的标准。《指南》的重要贡献就是建立了测量不确定度体系。因此,《指南》一经出版,世界各国测量学界就遵从《指南》来制定本国的测量不确定度表示标准或规范。 可以说,《指南》开创了测量不确定度评定时代。
《指南》测量不确定度体系的统计学基础是频率学派的置信区间理论、小样本理论、以及有效自由度公式。《指南》采用标准不确定度和扩展不确定度的概念。置信区间的半宽定义为扩展不确定度。虽然《指南》仍然遵循频率学派的观点将概率模型的未知参数(即真值)视为固定值(常量),将观测值视为随机变量,《指南》回避使用“真值”和“误差”这两个术语。《指南》也不再采用传统测量误差理论中随机误差/系统误差的分类。《指南》首次将测量不确定度划分为A类和B类。对当前实测数据进行统计分析得到的不确定度为A类。比如在小样本情况下,t-区间的半宽定义为A类扩展不确定度。通过其它方法(比如历史数据)得到的不确定度都归于B类。
事实上,置信区间理论在1935年刚提出时就受到质疑,当时的著名统计学家费歇尔指出置信区间理论的主要缺陷是“结果的不唯一性”。然而在之后的80多年间,置信区间理论通过统计学教科书得以传播,并且与统计显著性检验一起广泛应用于统计推断。最近几年来,学术界对置信区间的质疑越来越强烈。Morey 等人2016年发表了一篇题目为:“The fallacy of placing confidence in confidence intervals” 的论文,文中指出置信区间理论不是用来进行统计推断的。Morey 等人建议科学界摒弃置信区间。一些学者认为,统计显著性检验和置信区间的应用或者滥用是造成科学发现“可重复危机”的主要原因之一。心理学期刊《Basic and Applied Social Psychology》自2015年开始正式禁止使用统计显著性检验和置信区间,所有在该期刊上发表的论文必须不含有统计显著性检验和置信区间的内容。笔者于2018年发表了一篇关于 “t-转换扭曲”的论文,从而揭示了“t-转换扭曲”是A类不确定度在小样本时偏差很大的根源。其实,t-区间(最重要的置信区间)被误用于小样本测量不确定度分析,造成测量不确定度分析的3个悖论。
1997年,由原先起草《指南》的7个国际组织成立了计量指导联合委员会 (JCGM)(Joint Committee for Guides in Metrology)。JCGM 属下的第一工作组(WG1)从此接手《指南》及其补充文件的修改、撰写和出版。2008年,JCGM对ISO《指南》1995年版本进行了一些小的修改,出版了JCGM《指南》2008年版,并且出版了两个补充文件(基于蒙特卡罗方法的分布传播):GUM-S1和GUM-S2。迄今为止,《指南》2008年版仍然是测量不确定度分析的现行国际标准。
二、《测量不确定度表示指南》修订版(草稿)
在《指南》发表的同一年(1993),两位德国学者Weise 和Woger发表了一篇题目为“测量不确定度的贝叶斯理论”的论文,首次建议将贝叶斯统计学应用于测量不确定度评定。之后许多学者在主流测量学期刊上发表了大量关于贝叶斯方法的论文。根据Possolo和Bodnar 2018年的统计,仅仅《Metrologia》一个期刊自2002年起就发表了80篇与贝叶斯方法有关的论文。
贝叶斯学派其实是比频率学派起源更早的统计学学派,迄今已有250多年的历史,但是一直处于非主流地位。 直到最近三、四十年,贝叶斯学派才在许多科学领域成为主流。贝叶斯学派的一个基本观点是将概率模型的未知参数(即真值)视为随机变量,将具体观测值(数据)视为固定值(常量)。贝叶斯方法要求知道或者假定未知参数的先验分布,然后通过贝叶斯公式将先验分布与根据实测数据构成的似然函数合成得到未知参数的后验分布。扩展不确定度定义为后验分布上的信仰区间的半宽。
JCGM 第一工作组认为《指南》中的A类不确定度评估是基于频率学派的观点,而《指南》中的B类不确定度评估是基于贝叶斯学派的观点,因此《指南》在方法论上不自洽。JCGM 第一工作组还认为,《指南》与其两个补充文件在方法论上不协调,因为GUM-S1和GUM-S2采用贝叶斯学派的观点来定义不确定度。
2012年,JCGM 第一工作组启动了修订《指南》的项目,采用贝叶斯统计学对《指南》进行修订。但是一些学者明确表示反对并且指出了贝叶斯方法的缺陷。笔者认为贝叶斯方法在其它领域(比如社会学)取得成功并不意味着它适合测量学。比如贝叶斯统计学将实测物理量的真值视为随机变量,这一点很难被实际工作者所接受。另外,贝叶斯方法给出的A类不确定度在小样本时偏差很大,其根源也是“t-转换扭曲”。 笔者最近发现连续随机变量的贝叶斯定理违反了“自洽运算原则”, 这个发现可以解释贝叶斯方法的固有特性:偏差。
2014年12月,JCGM 第一工作组将《指南》修订版草稿发给了6个JCGM成员国和25个国家的计量研究院,于2015年6月收到了1000多条反馈意见,然而其中大部分是负面意见。JCGM 第一工作组因此不得不承认《指南》的修订版草稿无法得到工业界的认可。根据JCGM官方网站2019年5月4日的消息,JCGM 第一工作组放弃了对《指南》的修订,保留《指南》2008版,但是仍然计划出版一个基于贝叶斯统计学的不确定度评估文件(以被拒绝的修订版草稿为基础)。
三、挑战与机遇
《指南》于1993年出版后,中国计量科学研究院、中国计量学院等单位的学者对其进行了深入的研究,进而发现了一些问题。中国计量科学研究院钱钟泰、中国计量学院(现中国计量大学)宋明顺等学者于1999年3月出版了由10篇独立论文组成的论文集《执行“测量不确定度表示指南”ISO1993(E)的问题及其解决方法》。清华大学朱鹤年也于2001年撰文分析了《指南》1993年版的问题,文中指出“不能回避‘真值’的概念和定义”,并且指出了《指南》给出的实例中的多处错误。
事实上,无论频率学派还是贝叶斯学派都承认测验物理量存在一个真值,这个真值是常数,比如万有引力系数就是一个常数。在实际测量中,真值是未知的,否则就不需要测量了。 贝叶斯学派将真值(比如概率模型的位置参数)处理为随机变量, 是出于对于真值认知上的不确定性的考虑,并不是认为真值本身是随机变量。无论是频率学派还是贝叶斯学派,统计推断的目的是一样的,即根据所有可用信息获得真值(常数)的估计值。对于直接测量,基本测量公式为:误差=观测值-真值。误差是公认的随机变量,那么在基本测量公式的右边,观测值与真值两者中必须有一个被“处理”为随机变量,另一个则被“处理”为常量,这样基本测量公式才能够自洽。频率学派将观测值处理为随机变量,真值为常量。而贝叶斯学派将真值处理为随机变量,观测值为常量。但是,无论频率学派还是贝叶斯学派,误差的概念应该是一样的。然而《指南》与《指南》修订版都回避测量误差的概念。
2018年,笔者发表了一篇题目为“测量误差与不确定度的统一理论”的论文(简称“统一理论”)。统一理论将传统误差理论与近代不确定度理论结合起来,保留了两种理论中的合理部分,去除了不合理部分(比如摒弃了置信区间)。统一理论恢复使用误差的概念和随机误差/系统误差的分类,也保留了A类和B类不确定度分类。在统一理论中,扩展不确定度定义为概率区间的半宽,也即误差的概率限,采用无偏估计法计算A类标准不确定度。与t-区间有关的3个悖论随着无偏估计法的应用迎刃而解。笔者建议根据统一理论对《指南》进行修订。然而统一理论是否能够得到认可和应用还有待时间的检验。
参考文献:略
转载本文请联系原作者获取授权,同时请注明本文来自黄河宁科学网博客。
链接地址:https://wap.sciencenet.cn/blog-3427112-1263393.html?mobile=1
收藏