黄河宁
数据非线性转换的陷阱 II: "学生化"(Studentized)对统计推断的影响
2022-9-8 07:38
阅读:2955

学生化 (Studentized) 是一种特殊的非线性转换,转换后的变量为t统计量,因此称之为t-转换

image.png

假定我们利用蒙特卡罗方法获得许多仿真样本,从而得到样本标准差s样本误差ε数据。这些仿真数据可以显示在(s ,ε )平面,即原始二维样本空间 Ωs ,ε)。在原始二维样本空间 Ωs ,ε),样本误差ε服从正态分布,样本标准差s服从chi-分布。因为εs相互独立,很容易的到它们的联合分布。我们可以进行t-转换’ (学生化”) 使原始二维样本空间 Ωs ,ε)的s ,ε数据转变成一维样本空间Ωt)的 t统计量数据。转换后的一维样本空间Ωtt统计量服从学生氏t-分布。 因此,基于学生t-分布的统计推断(例如t-区间、t-检验等等)是在一维样本空间Ωt)进行的。当然,我们也可以将转换后的数据显示在(s ,t)平面,但是s t相互不独立

然而,使用[数据]转换会扭曲统计推断的每个部分【1】。也就是说,根据转换后的扭曲数据进行统计推断不会是正确的。这可以类比于现实生活中的一个例子:将柿子做成柿子饼是一种“转换”(图1);根据柿子饼的形状 -- “扭曲的柿子形状 -- 不可能正确推断柿子的原始形状(图2)。

为了说明t-转换’ (学生化”) 统计推断的影响,我们考虑两个样本:A B,它们具有相同的样本量 n=4,分别从两个不同的正态分布中随机抽取。样本 A 的样本均值为 xA=2(任意单位),样本标准差为 sA=0.2。样本 B 的样本均值为 xB=5 , 样本标准差为 sB=0.8。假设两个正态分布的真值相等,μ=1 (但是方差不同)。因此,样本 A 的误差为 εA=1,样本 B 的误差为 εB=4。换句话说,xA xB 更接近真值μ=1。然而,在 t-转换之后两个样本具有相同的 t 值:tA=(2-1)/0.2/√4=2.5, tB=(5-1)/0.8/√4=2.5。也就是说,在转换后的样本空间Ωt),这两个样本之间的差异被掩盖了,因此根据这两个样本的t统计量进行统计推断将导致同样的结果,这显然是不合理的。

在测量不确定度评估实践中,t-转换扭曲’导致了“不确定度悖论”和“巴利科悖论感兴趣的读者可以参见2】,这里不赘述

image.png

参考文献

1】 Harrell F 2014  Comments on: ‘Pitfalls to avoid when transforming data?’ Cross Validated, http://stats.stackexchange.com/questions/90149/pitfalls-to-avoid-when-transforming-data

2  黄河宁,2022 基于学生氏t-分布推断的谬误:两个悖论及其解决方法,及t-转换扭曲’, ResearchGate, https://www.researchgate.net/publication/362294062_jiyuxueshengshit-fenbutuiduandemiuwu_lianggebeilunjiqijiejuefangfaji't-zhuanhuanniuqu'

转载本文请联系原作者获取授权,同时请注明本文来自黄河宁科学网博客。

链接地址:https://wap.sciencenet.cn/blog-3427112-1354453.html?mobile=1

收藏

分享到:

当前推荐数:8
推荐到博客首页
网友评论2 条评论
确定删除指定的回复吗?
确定删除本博文吗?