赖江山的博客分享 http://blog.sciencenet.cn/u/laijiangshan 生态、统计与R语言

博文

关于冗余分析(RDA)中环境因子共同解释部分出现负值的说明

已有 28582 次阅读 2019-6-30 22:16 |系统分类:科研笔记| RDA, 多元回归, 共同解释部分, 负值

     在RDA分析(包括普通多元线性回归)中,如果解释变量之间存在相关性(也称为共线性),解释变量所能解释的响应变量的方差有重叠的部分,也就是共同解释部分(intersection)(如下图中[b],这里以两个变量或两组变量X和W为例)。很多研究论文中把共同解释部分[b]称为“交互作用(interaction)”是不对的。交互作用是指有重复的双因素(或多因素)方差分析中一个因子不同水平与其他因子不同水平之间的协同作用,在方差分析表达式为两个因子的组合;而在普通多元线性回归或RDA中的“交互作用”是以定量解释变量之间的乘积作为新的一项解释变量对响应变量的解释作用,交互作用项可以是两个或多个解释变量的乘积。因此,共同解释部分(intersection)与交互作用(interaction)其实是两码事,请大家不要搞混了!


解释变量的独立解释部分和共同解释部分可以通过变差分解(variation partitioning,也有译为“方差分解”,但variation的范围确比variance要广一点,variance仅是variation的一种具体类型)获得(也就获得下图中[a]、[b]和[c]各部分数值)。其中[a]为变量X(可以是单个变量,也可以一组变量)独立解释的部分(即与W无关的方差),具体计算过程可以通过先将响应变量Y与W做RDA分析后获得残差矩阵再跟X进行RDA分析所获得的校正R2,其实也就是以X为主解释变量,以W为协变量的偏RDA分析。同样[c]部分也通过偏RDA获得,只不过是将X与W的位置对调一下。而共同解释部分([b])可以通过减法获得,即同时以X和W组合一起作为解释变量做RDA,将获得[a+b+c]部分,然后[a+b+c]-[a]-[c]= [b]。

在一般情况下共同解释部分[b]应该是不会出现负值,但有时 [b]有可能出现负值的情况。如果共同解释部分[b]为负的时候,表示X和W合在一起作为解释变量解释响应变量Y的校正R2比X和W分别单独作为解释变量的两个RDA校正R2的和还要大。例如X和W之间很强的负相关,且它们都与Y均不显著的正相关,可能就会发生这种情况。这种情况理解起来似乎有点矛盾,既然X和W之间负相关,就是表示变化趋势相反,怎么又会与Y同时正相关呢?根据逻辑推理,同时与Y正相关就意味着X和W之间也应该正相关才对,但实际X与W都与Y均不显著的正相关(例如相关系数接近0)的时候,X和W之间负相关但它们均与Y正相关这种情况是也有可能出现的。

上面的描述有点抽象,举一个具体例子大家更容易理解。假设我们沿着海拔梯度取了若干个样方,每个样方里面的响应变量为生物量y,解释变量为海拔x和温度w。假设生物量y会随时海拔x增加而增加,即y与x之间直接相关分析为正相关(但不显著)(y~x回归分析校正R2就是图中[a+b]部分);假设生物量y也随温度w增加而增加,即y与w之间直接相关分析也为正相关(但也不显著)(y~w回归分析R2就是图中[c+b]部分)。这两个正相关的不显著的原因是因为温度随着海拔逐渐降低,即x与w之间存在强烈的负相关。如果做偏回归分析,即剔除海拔x影响之后(x作为协变量),生物量y与温度w之间显著的正相关就能展示出来,就是图中[c]部分是显著的,而且值会大于[c+b],所以[b]必须是负的才能保证[c]>[c+b];同样情况也可以发生在[a]的情况,如果去掉温度w的影响,[a]就是显著而且值比较大,因此会出现[a]>[a+b]情况。如果还无法理解,就简单一句话,生物量与温度的正相关不显著是受到海拔的干扰(屏蔽),如果把海拔干扰去掉了(偏回归),它们的显著的正相关就能展露出来了。很多情况下,两个变量直接做相关分析不显著,但是剔除别的因素的影响后的偏相关可能就是显著的,这种情况在生态学数据中尤为常见。在结构方程模型就是直接效应(direct effects)可能是显著的正效应([a]部分),间接效应(indirect effect)可能是负效应([b]部分),总的效应正负相加[a+b]就可能很小且不显著。

 一般情况下如果共同解释部分[b]为负值,可以视为0来解读,不必做更深入的解释。从数学上应该是各组分是使用校正R2引起的,大家不必纠结这个负值。

在vegan包变差分解函数作图函数plot.varpart中默认不显示小于0的组分,如果要显示负值,请设置参数cutoff = -Inf即可。


 




https://wap.sciencenet.cn/blog-267448-1187530.html

上一篇:关于RDA中每个环境因子解释率的说明
下一篇:《数量生态学-R语言的应用》第二版 译者序
收藏 IP: 114.245.47.*| 热度|

6 王从彦 李学友 尤明庆 李心诚 胡涛 张剑搏

该博文允许注册用户评论 请点击登录 评论 (8 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-23 22:25

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部