在数据统计分析以及建模中,数据转换(data transformation) 是一种常用的数据处理技术。而非线性转换是数据转换的多种形式之一。顾名思义,非线性转换的函数为非线性,包括“学生化” (Studentized, 即‘t-转换’)、对数转换、平方根转换、倒数转换、平方转换、指数转换等等。非线性转换的重要功能是改变数据的分布特征,它有助于揭示原始数据中隐藏的特性,转换后的数据通常比较容易进行数学运算、回归分析、或者统计分析。但是非线性转换将造成原始数据的“扭曲”。转换扭曲对统计推断或回归分析的影响有时会很大,不容忽视。本文通过对一组仿真数据的分析简要讨论对数转换扭曲对回归分析的影响。
我们根据公式Y=X2+ε产生一组仿真数据,式中ε为正态分布N(0,0.5)产生的随机误差(噪声),x的取值范围为(0.21,5.01)。为了讨论方便,我们称这组仿真数据为原始数据{X, Y}。
假定这组原始数据{X, Y}服从幂函数关系Y=aXb,式中a和 b为待定系数,可以通过回归分析确定。按照通常的做法,我们对这组原始数据{X, Y}实施对数转换,获得一组{log(X), log(Y)}数据。图1显示了对数转换后的数据。可以看到数据log(Y)与log(X)呈近似线性关系。用Excel 得到的线性回归公式为log(Y)=1.7346log(X)+0.1099。逆转换后得到的幂函数回归公式为Y=1.288X1.7346,其中回归系数 a=1.288, b=1.7346。如果在Excel中对原始数据采用幂函数回归,得到同样的幂函数回归公式。由此可见Excel是利用对数转换后的数据进行线性回归分析。然而,原始数据是根据Y=X2+ε生成的,a的理论值=1,b的理论值=2。因此,通过对数转换得到的回归系数与相应的理论值偏差较大。
以上线性回归分析是在对数转换后的样本空间进行的。由于对数转换扭曲的影响,得到的幂函数回归公式Y=1.288X1.7346不能够准确地反映原始数据{X,Y}之间的关系。图2 显示了原始数据{X,Y}、与原始数据对应的幂函数公式Y=X2,以及根据对数转换数据进行回归分析得到的幂函数回归公式Y=1.288X1.7346。显然,对数转换扭曲是不能忽略的。需要指出的是,对数转换扭曲程度与原始数据X的范围有关。 由图1可以看到,对于这组仿真数据,对数转换扭曲程度当X<1时较大,当X>1时较小。
对数转换必然造成原始数据的扭曲(尽管扭曲有时很小可以忽略)。因此,我们建议回归分析应该在原始样本空间进行,即直接对原始数据进行幂函数回归。然而Excel不具有对原始数据进行幂函数回归的功能。事实上,Excel先将原始数据通过对数转换,然后再对转换后的数据利用最小二乘法进行线性回归分析,得到线性回归方程后通过逆转换得到幂函数回归方程。但是这种方法得到的幂函数回归方程的残差并非在原始样本空间内最小。
对原始数据进行幂函数回归分析(或者其它非线性回归分析)需要借助于专门的回归分析软件。图3显示用“定线通” 软件对上述原始数据进行幂函数回归的截屏。“定线通” 软件对非线性函数采用非线性回归分析,得到的非线性回归方程的残差在原始样本空间内最小【1】。 利用“定线通” 软件得到的幂函数回归公式为Y=1.0002X1.9999。回归系数 a=1.0002, b=1.9999,与理论值a=1,理论值b=2非常接近。
参考文献
【1】王发君、黄河宁,H-ADCP流量在线监测指标流速法定线软件“定线通”介绍与应用,《水文》2007年第4期63-65,44。
转载本文请联系原作者获取授权,同时请注明本文来自黄河宁科学网博客。
链接地址:https://wap.sciencenet.cn/blog-3427112-1353919.html?mobile=1
收藏