博文

数量生态学笔记||典范排序概述

已有 4044 次阅读 2018-8-29 22:07 |系统分类:科研笔记

起了个大早做这张导图，不知道会不会吓到大家。有一周没有更新我们的《数量生态学笔记》了，因为这一章还是蛮有难度的，书中就是说这一章我们来讲典范排序，然后就直接讲RDA了。看RDA一会排序一会回归，书中的每一个汉字都认识，放在一起的一个句子就不懂了。这基本上就是我的一个状态，所以就没更新。

本来以为只要多查些资料就好了，多看嘛，总会理解的。看张金屯老师的《数量生态学》有知道典范排序（约束排序）是在非约束排序分析的每一步与环境因子进行回归，再将回归系数结合到下一步的排序值得计算之中。其中与环境因子的结合方式如下：

$ $\begin{equation} y_j=b_0+b_1z_{1j}+b_2z_{2j}+b_3z_{3j}+...+b_qz_{qj} \text {,(1)} \label{eq:Sample} \end{equation}$ $

式中， $y_j$ 为第 $j$ 个样方的排序值； $b_0$ 为截距； $b_1$ 为第 $i$ 个环境因子的回归系数（ $i=1,2,3..q$ 为环境因子的数目）可用多元线性回归求得； $z_{ij}$ 为第 $i$ 个环境因子的观测值。

可以看出，典范排序不再是被动加入解释变量，而是从排序开始直接加入解释变量进行计算。与非约束排序不同的是，典范排序只是提出和展示与解释变量有关的数据结构，并可以通过统计检验方法检验解释变量与响应变量之间关系的显著性。

不管怎么说我们讲典范排序就离不开多元回归模型，因为

回归 + 非约束排序 = 典范排序

线性多元回归模型

所以我找来同样是赖老师翻译的《基于 CANOCO 的生态学数据的多元统计分析》第五章5约束排序与置换检验(Constrained Ordination and
Permutation tests)，在这里和大家分享一下其中的部分内容。

首先，我们必须回顾一下传统的线性回归模型，因为这对于我们理解“直接梯度分析”（约束排序）相当重要。图5-1展示的是最简单的线性回归模型，线性模型可以模拟响应变量 $Y$ 依赖自变量 $X$ 的程度。图5-1中不仅有拟合回归线，也展示了模拟值和实测值之间的差别。模拟值 $\hat{Y_i}$ (回归线上的值)与实测值 $Yi$ 之间的差值叫做回归残差（regression residual）,用e表示。所有的统计模型(statistical models,包括回归模型)有个重要的特征是它们都有两个主要的部分构成:系统组成部分（systematic component）表示响应变量中能被一个或更多的解释变量（模型）解释的部分，这部分用带参数的函数表示。另外一部分就是随机部分（stochastic
component），表示不能被目前解释变量（模型）所能解释的部分。随机部分通常用概率和分布特性来定义。
图 5-1

我们通常通过响应变量有多少能够被系统组成部分解释来评估拟合模型的好坏。也经常将能被解释和未被解释的部分进行比较。目的在于，尽力去构建一个最简约的回归模型来解释最多的变化量，让所有的自变量对于响应变量的解释都有显著贡献。我们可以通过逐步迭代（回归）(stepwise selection)的方式来选择解释变量(环境变量)的子集合，在排序术语中往往叫预选（forward selection）。预选变量的过程是无响应变量的零和假设开始，零和假设是响应变量中没有可以被解释变量预测,而仅仅由随机变量解释。当我们选择一个解释变量(环境变量)进入分析，可以导致回归模型能解释一部分响应变量。可以根据所加入的变量所能解释部分的大小来确定是否选择的该环境变量。另外，需要用随意置换(randomly swap)环境
因子的值来检验这种解释量是偶然的，还是真的为环境变量所解释? 如果被检验的变量所能解释的部分被证明是非随机的(统计显著), 我们就可以接受这个变量。可以重复这个过程，再进一步从剩下的变量中选择另外更好的变量，直到选择具有足够的变量为止。

约束排序模型（Constrained ordination model）

非约束的排序（PCA 和CA）被定义为寻找潜在的梯度代表最优的解释变量(预测器)来拟合物种的回归模型。

约束排序跟非约束的排序有一个很大的区别，非约束排序是虚拟的（潜在的）梯度、而约束排序的梯度是明确给出的。这些梯度（排序轴）是参与排序的环境变量的线性组合。因此我们通过合成变量（排序轴）尽力解释物种的多度变化，这些合成变量是实测环境变量的线性组合。

因此，约束排序方法（RDA和CCA）类似于多元多重回归。但在多元多重回归中，如果有 $m$ 个响应变量， $p$ 个环境因子，我们必须估计出 $m×p$ 个的参数（回归系数）（每个方程需要 $p$ 个参数， $m$ 个方程自然是需要 $m×p$ 个的参数）。然而，在约束排序里面，不必这么麻烦，环境因子对于响应变量的影响被集中在几个合成的梯度（排序轴），也叫典范轴(canonical axes)。典范轴的数量是跟独立解释变量的数量一样多，但是我们经常使用前面几轴。如果环境因子和物种的数量很少的时候，是不必做约束排序的，做普通回归即可， $m$ 和 $p$ 比较多的时候，约束排序的优势才能展示出来。

如果有协变量(covariables)，我们经常使用偏分析（partial analyses）。有协变量情况，表示我们要将这些协变量的所能解释的部分先剔除出去。协变量在方差分析中也有相同的用法，通常是把量化的协变量作为一种因子处理。而在传统的回归中，协变量的概念是不常用的，协变量与真变量没有什么不同，叫法不同而已。

别怕，这些概念都会在我们的典范排序的笔记中给到大家的。不管怎么排序，就记住一条就好：在排序空间内，离得越近的关系与亲密。

原文链接：https://www.jianshu.com/writer#/notebooks/19381575/notes/32659688

参考：
Ordination Methods - an overview
Canonical ordination
基于 CANOCO 的生态学数据的多元统计分析|第五章
 Multiple Linear Regression - MLR
Multiple Linear Regression

转载本文请联系原作者获取授权，同时请注明本文来自周运来科学网博客。
链接地址：https://wap.sciencenet.cn/blog-1835014-1131754.html

上一篇：人类口腔微生物组数据库（eHOMD）简介
下一篇：环境与生态统计笔记||绪论

收藏 IP: 123.151.22.*| 热度|

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (2 个评论)

数据加载中...

返回顶部

周运来

扫一扫，分享此博文

全部作者的精选博文

• 关心你的实验室吗？

衣带渐宽终不悔分享 http://blog.sciencenet.cn/u/tuqiang2014 在康河的柔波里，做一条水草，向青草更青处漫溯。

博文