chinesehugh的个人博客分享 http://blog.sciencenet.cn/u/chinesehugh

博文

[转载]数据标准化简介

已有 20096 次阅读 2021-2-28 20:36 |系统分类:科研笔记|文章来源:转载

在对组学数据分析之前,我们常常需要根据数据量纲的不同以及分析方法的需要对数据进行各种预处理,也即数据标准化/规范化(normalization)。数据标准化的目的是使数据的总体符合某种要求,例如使数据总体符合正态分布以方便参数检验、使数据范围相同以方便比较分析、使数据分布均匀以方便作图展示等。我们必须知道不同标准化方法的内涵,从而在实际研究中可以选择正确的数据标准化方法。

另一说,数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。其中最典型的就是数据的归一化处理,即将数据统一映射到[0,1]区间上。缺点是,当样本中有异常点时,归一化有可能将正常的样本“挤”到一起去。比如三个样本,某个特征的值为1,2,10000,假设10000这个值是异常值,用归一化的方法后,正常的1,2就会被“挤”到一起去。

 

首先我们介绍一下数据转换。简单数据转换也即对整体数据进行简单运算,数据转换的目的主要有三个,一是改变数据结构,例如非线性通过平方根、对数转换为线性;二是改变数据范围,便于比较和作图分析,例如数据变化特别大的可以进行对数转换来缩小属性范围;三是改变数据分布,使得样本偏离标准分布太远的更加接近标准分布(例如正态分布)。常见的数据转换有以下几种:

1. 对数转换:将数据(样本观察值)取自然对数(或者其他数为底的对数),可以使用log函数来实现。若是数据中有0或负值,可以给全部数据加上一个数转换为正数(包括测序count数据经常+1)。对数转换可以使0~1范围内的数据范围变大,使>1范围内数据范围变紧凑。

2. 平方根转换:将数据全部取平方根,类似的还有立方根转换、四次方根转换(偶数方根要求数据非负)。如果数据结构为二次幂关系,平方根转换可以使数据范围变小。

3. 倒数转换:将数据全部取倒数,也即1/x,倒数转换使0~1范围内的数据范围变大,使>1范围内数据范围变紧凑,而且转换后数据为倒序。

 

数据转换仅仅是对数据中每个观察值的独立处理,而标准化则涉及到数值之间的处理。

1. 最大值标准化,将数据除以该行/列的最大值。对于非负的数据,最大值标准化后数据全部位于01之间。

2. 总和标准化,将数据除以该行/列的总和,也即求相对丰度,总和标准化后数据全部位于01之间。

3. Min-max标准化,将数据减去该行/列的最小值,并比上最大值与最小值之差,Min-max标准化后的数据全部位于01之间。

4. 模标准化,将数据除以每行/列的平方和的平方根,模标准化后每行/列的平方和为1(向量的模为1),也即在笛卡尔坐标系中到原点的欧氏距离为1,样品分布在一个圆弧上,彼此之间的距离为弦长,因此也称为弦转化。在基于欧氏距离的PCARDA中分析群落数据可以将每个样方弦转化可以弥补欧氏距离的缺陷。弦转化后的数据使用欧氏距离函数计算将得到弦距离矩阵。

5. Hellinger转化,就是总和标准化数据的平方根,hellinger转化后的数据使用欧氏距离函数计算将得到hellinger距离矩阵。

6. 卡方转化,数据除以行的和再除以列的和的平方根,卡方转化后的数据使用欧氏距离函数计算将得到卡方距离矩阵。

7. Wisconsin转化,将数据除以该列最大值再除以该行总和,是最大值标准化和总和标准化的结合。

8. Z-score标准化,最常用的标准化方法之一,将数据减去均值比上标准差,z-score标准化后数据均值为0,方差为1,服从正态总体的数据标准化后服从标准正态分布。z-score标准化可以去除不同环境因子量纲的影响。

9. 均值中心化,将每一个数据减去均值,变换后均值为0

10. 帕莱托(Pareto)标准化,该方法将每个数据减去均值,再除以标准差的平方根。

11. 极差标准化,该方法将每个数据减去平均值后除以最大值减去最小值的差。

为了比较不同标准化方法对群落数据的影响,我们使用只有两个物种的虚拟群落进行处理,然后在笛卡尔坐标系进行展示(彼此之间是欧氏距离)。

假设虚拟数据:2个物种在分别5个样本(A, B, C, D, E)的分布

Specie1=(0.1, 0.2, 0.3, 0.4, 0.5)

Specie2=(0.6, 0.7, 0.8, 0.9, 1.0)

结果如下(使用生态学常用的vegan包中的decostand()函数):

1.png
 

在没有处理的情况下,群落之间的欧氏距离相等,然而在生态学方面我们不这么看,因为B中物种1的数量是A的两倍,AB之间的群落差距显然比BCCDDE之间更大,五种处理方法标准化数据后的结果都比较好的证实了上面的猜想,尤其是最后两种。然而在微生物生态中,我们倾向于认为微生物群落是一个整体,不同样品之间物种的相对丰度是有可比较的实际意义的,因此最常用的就是总和标准化(当然在不涉及丰度比较的聚类和排序分析中各种标准化方法都可以尝试,在传统群落研究里,虽然经常使用中心化等方法,但是需要使用盖度等对不同物种进行加权,因此直接进行总和标准化从某种意义上是使用相对丰度进行加权)。

对于物理、化学变量而言,则完全不同,因为环境变量的值具有绝对性,例如温度1-2℃21-22℃其差异是一样的。环境变量由于量纲不同,在计算距离矩阵(欧氏距离)、根据特征根提取的主成分分析、比较系数的回归分析之前,均需要进行z-score标准化。

 

摘自https://mp.weixin.qq.com/s/xIvUv-7RrRyiaLvV8RTrlQ

http://lab.majorbio.com/page/tools/tools.html?cmd_id=7akm9tkool200nf7cp8ndcsvva




https://wap.sciencenet.cn/blog-3431904-1274291.html

上一篇:[转载]你真得明白RPKM, FPKM, TPM这三者的区别吗?
下一篇:[转载]代谢组分析中的过拟合(overfitting)问题
收藏 IP: 111.36.139.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-26 22:50

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部