“学生化” (Studentized) 是一种特殊的非线性转换,转换后的变量为t统计量,因此称之为‘t-转换’:
假定我们利用蒙特卡罗方法获得许多仿真样本,从而得到样本标准差s和样本误差ε数据。这些仿真数据可以显示在(s ,ε )平面,即原始二维样本空间 Ω(s ,ε)。在原始二维样本空间 Ω(s ,ε),样本误差ε服从正态分布,样本标准差s服从chi-分布。因为ε与s相互独立,很容易的到它们的联合分布。我们可以进行‘t-转换’ (“学生化”) 使原始二维样本空间 Ω(s ,ε)的s ,ε数据转变成一维样本空间Ω(t)的 t统计量数据。在转换后的一维样本空间Ω(t),t统计量服从学生氏t-分布。 因此,基于学生氏t-分布的统计推断(例如t-区间、t-检验等等)是在一维样本空间Ω(t)进行的。当然,我们也可以将转换后的数据显示在(s ,t)平面,但是s 与t相互不独立。
然而,“使用[数据]转换会扭曲统计推断的每个部分【1】”。也就是说,根据转换后的“扭曲”的数据进行统计推断不会是正确的。这可以类比于现实生活中的一个例子:将柿子做成柿子饼是一种“转换”(图1);根据柿子饼的形状 -- “扭曲”的柿子形状 -- 不可能正确推断柿子的原始形状(图2)。
为了说明‘t-转换’ (“学生化”) 对统计推断的影响,我们考虑两个样本:A 和 B,它们具有相同的样本量 n=4,分别从两个不同的正态分布中随机抽取。样本 A 的样本均值为 xA=2(任意单位),样本标准差为 sA=0.2。样本 B 的样本均值为 xB=5 , 样本标准差为 sB=0.8。假设两个正态分布的真值相等,μ=1 (但是方差不同)。因此,样本 A 的误差为 εA=1,样本 B 的误差为 εB=4。换句话说,xA 比 xB 更接近真值μ=1。然而,在 ‘t-转换’之后,这两个样本具有相同的 t 值:tA=(2-1)/0.2/√4=2.5, tB=(5-1)/0.8/√4=2.5。也就是说,在转换后的样本空间Ω(t),这两个样本之间的差异被掩盖了,因此根据这两个样本的t统计量进行统计推断将导致同样的结果,这显然是不合理的。
在测量不确定度评估实践中,‘t-转换扭曲’导致了“不确定度悖论”和“巴利科悖论”。感兴趣的读者可以参见【2】,这里不赘述。
参考文献
【1】 Harrell F 2014 Comments on: ‘Pitfalls to avoid when transforming data?’ Cross Validated, http://stats.stackexchange.com/questions/90149/pitfalls-to-avoid-when-transforming-data
【2】 黄河宁,2022 基于学生氏t-分布推断的谬误:两个悖论及其解决方法,及‘t-转换扭曲’, ResearchGate, https://www.researchgate.net/publication/362294062_jiyuxueshengshit-fenbutuiduandemiuwu_lianggebeilunjiqijiejuefangfaji't-zhuanhuanniuqu'
转载本文请联系原作者获取授权,同时请注明本文来自黄河宁科学网博客。
链接地址:https://wap.sciencenet.cn/blog-3427112-1354453.html?mobile=1
收藏