科学网-标幺值和有名值、缩放和中心化；非线性与随机性；额外误差-杨正瓴的博文

切换到桌面版

标幺值和有名值、缩放和中心化；非线性与随机性；额外误差

2020-1-15 15:42

阅读：6287

标签：非线性, 随机性, 线性变换, 误差, 多元函数微分

汉语是联合国官方正式使用的 6种同等有效语言之一。请不要歧视汉语！

Chinese is one of the six equally effective official languages of the United Nations.

Not to discriminate against Chinese, please!

标幺值和有名值、缩放和中心化；

非线性与随机性；额外误差

从数学角度看，经过“减法”、“数乘”之后性质仍然不变的系统，一般为“线性系统 linear system”，即同时满足

①“叠加性 additivity or superposition principle”

f(x+y) = f(x) + f(y)，

和

②“齐次性 homogeneity”

f(kx) = kf(x)，k≠0是一个实数。

的系统f(·)。

现实世界里的大多数事物都不具有线性性质。即“非线性”，不满足上面的一条或一条以上的性质。

对于非线性，特别是带有噪声（随机性）的事物，经过线性变换（如标幺化 per-unit normalization，min-max 标准化 normalization，z-score 标准化 Stardardization，中心化/零均值化 Zero-centered，等）后，信息处理的结果可能会带有一定的额外的系统误差。

简言之，非线性系统的全局分析时，如果变量使用了线性变换，可能会引起一定量额外的系统误差。好像现在大多数人还没有注意到这点。

温馨提醒：

数据处理中常用的线性变换有：（1）标幺化 per-unit normalization，（2）min-max 标准化 normalization，（3）z-score 标准化 Stardardization，（4）中心化/零均值化 Zero-centered。

建议：

对于具有较大波动性（或噪声）的非线性数据，用原始数据进行信息处理，从理论上看具有比“线性变换”后再处理具有更高的准确性。

可惜目前许多方法不具有直接处理原始数据（如有名值）的良好能力。例如在多变量回归时，不采用标准化等的结果会更坏。原因似乎还不是很清楚，可能与统计量的“置信区间 confidence interval”、多元函数微分 multivariate Function Differential、有效数字位数 number of significant digits 等有关。再次呼吁大力发展“小样本统计学”！