生态学的数据大部分取样于地球表面,常常具有时空属性或复杂的嵌套和层次结构,导致数据点之间不独立的问题普遍存在,传统的普通线性模型对类数据并不适用。线性混合效应模型(LMM)及广义线性混合效应模型 (GLMM) 允许我们明确地对这种数据中的非独立性进行建模,因此在生态学研究中越来越受欢迎(Harrison etal. 2018; Silk, Harrison & Hodgson 2020)。R语言的普及也为(G)LMM使用起了极大的促进作用,通过文献调查表明,实现(G)LMM的lme4包和nlme包也分别是近十多年生态学研究中使用频次排第一和第三的R程序包(Lai et al. 2019)。
对于普通的线性回归,R2给出了模型中响应变量方差被解释变量解释的比例,是评估模型拟合度的直观度量。不幸的是,(G)LMM 的R2获取是不容易的事情。对于具有正态性的残差和没有随机效应的普通线性模型,很容易通过计算残差的方差获得R2。但 (G)LMM的情况大为不同,除了与普通的广义线性模型(GLM)一样具有非正态的残差之外,还有一个显著的特点就是(G)LMM具有明显的分层结构(即随机效应),无法确定用哪个层次的残差来计算R2(Nakagawa & Schielzeth 2013)。正因为这个不确定性,也导致(G)LMM的R2计算方案也是层出不穷(Cox & Snell 1989;Nagelkerke 1991; Gelman & Pardoe 2006; Nakagawa & Schielzeth 2013)。近年来获得最多支持是 Nakagawa &Schielzeth (2013) 提出的两个互补(G)LMM的R2:由固定效应解释的marginal R2;以及由固定效应和随机效应一起解释的conditional R2。Nakagawa et al. (2017) 将他们的 R2 从原来的高斯分布、泊松分布和二项分布拓展到负二项式分布和gamma分布的GLMM模型。Nakagawa R2在多个R的包里能实现,常用的有MuMIn包(Bartoń 2020)和piecewiseSEM (Lefcheck 2016) 等。根据Methodsin Ecology and Evolution期刊官网统计,Nakagawa & Schielzeth (2013)的文章也成为该刊自2010年创刊来引用频次最高的文章(https://besjournals.onlinelibrary.wiley.com/journal/2041210X)。
如果(G)LMM 的固定效应是多个解释变量因子,那么marginal R2是所有固定效应因子一起解释的比例。当一个模型包含多个解释变量时候,研究人员通常会对每个变量的相对重要性感兴趣(Healy 1990)。相对重要性可以从每个变量对模型拟合度(比如R2)的贡献比例来确定(Johnson & LeBreton 2004)。 这不仅适用于普通多元线性回归,同样适用于包含多个固定效应因子的(G)LMM。但是,当解释变量存在相关时候,由于相关性,不能简单地将模型R2分为每个变量独立的部分,这意味着变量之间具有共享的R2,而共享的R2到底是哪个解释变量解释的实际上从数学上无法辨别的。不幸的是,由于生态学数据通常来自野外观测,因此错综复杂的环境因子的之间共线性是一种普遍的现象(Graham 2003),因此,给每个解释变量准确的分配R2是一个挑战。
我们近期在MEE上发表的文章提出的“平均分配”共享R2方案(也是经典的“hierarchical partitioning”新诠释), 并开发了rdacca.hp包来用于普通多元线性回归和典范分析的R2的分配(Lai et al. 2022)。“平均分配”的好处是可以获得每个解释变量的单个贡献(individual contribution),而这些单个贡献的总和刚好也得等于总R2,这种优良特性统计学上称为满贡献率(full contribution)。我们认为同样算法可以用来分配(G)LMM固定效应的marginal R2。因此,我们也开发一个新包glmm.hp来分配 (G)LMM的marginal R2给每个固定效应因子,进而判断固定效应因子的相对重要性,这样每个固定效应因子所分配的R2刚好也等于总的marginal R2。需要要声明的是,包是开发出来的,分解的算法可以参考MEE的文章,但是这样分解方案是否具有生态学意义,恐怕是需要各个用户自己判断了,但算法的依据,可以引用我们MEE的文章(Lai et al. 2022)。
新开发的glmm.hp是基于MuMIn包的 r.squaredGLMM函数,也就是说只要能通过r.squaredGLMM函数获取marginal R2的(G)LMM模型,均可以用glmm.hp获取每个固定的效应所分配的marginal R2。目前glmm.hp包可以从R官网(CRAN)或Github(github.com/laijiangshan/rdacca.hp)安装。主函数是glmm.hp()所需要的参数非常简单,从lme4包出来的"merMod"类型对象或是nlme包出来的"lme"类型的对象即可。还有一个作图泛函数plot.glmmhp可以做柱状图。欢迎大家下载安装并使用,希望能反馈给我运算的结果是否符合你们的预期。我期待大家的反馈,也是鼓励我进一步完善包,我的邮箱lai@ibcas.ac.cn或QQ 185756911。
以下是案例代码:
install.packages("glmm.hp")
library(glmm.hp)
library(lme4)
mod1<- lmer(Sepal.Length ~ Petal.Length + Petal.Width +(1 | Species), data =iris)
r.squaredGLMM(mod1)
glmm.hp(mod1)
plot(glmm.hp(mod1))
参考文献
Bartoń,K. (2020) MuMIn: Multi-Model Inference. R package version 1.43.17.
Cox,D.R. & Snell, E.J. (1989) The Analysis of Binary Data, SecondEdition edn. Chapman and Hall, London: .
Gelman,A. & Pardoe, L. (2006) Bayesian measures of explained variance and poolingin multilevel (hierarchical) models. Technometrics, 48, 241-251.
Graham, M.H. (2003) Confronting multicollinearity in ecologicalmultiple regression. Ecology, 84, 2809-2815.
Harrison,X.A., Donaldson, L., Correa-Cano, M.E., Evans, J., Fisher, D.N., Goodwin, C.E.,Robinson, B.S., Hodgson, D.J. & Inger, R. (2018) A brief introduction tomixed effects modelling and multi-model inference in ecology. Peerj, 6.
Healy,M.J.R. (1990) Measuring importance. Statistics in Medicine, 9, 633-637.
Johnson,J.W. & LeBreton, J.M. (2004) History and use of relative importance indicesin organizational research. Organizational Research Methods, 7, 238-257.
Lai,J.S., Lortie, C.J., Muenchen, R.A., Yang, J. & Ma, K.P. (2019) Evaluatingthe popularity of R in ecology. Ecosphere, 10.ecs2.2567
Lai,J.S., Zou, Y., Zhang, J.L. & Peres-Neto, P.R. (2022) Generalizinghierarchical and variation partitioning in multiple regression and canonicalanalyses using the rdacca.hp R package. Methods in Ecology andEvolution.<DOI:10.1111/2041-210X.13800>
Lefcheck,J.S. (2016) PIECEWISESEM: Piecewise structural equation modelling in R forecology, evolution, and systematics. Methods in Ecology and Evolution, 7, 573-579.
Nagelkerke, N.J.D.(1991) A NOTE ON A GENERAL DEFINITION OF THE COEFFICIENT OFDETERMINATION. Biometrika, 78, 691-692.
Nakagawa, S. &Schielzeth, H. (2013) A general and simple method for obtaining R2 fromgeneralized linear mixed-effects models. Methods in Ecology andEvolution, 4, 133-142.
Silk, M.J., Harrison,X.A. & Hodgson, D.J. (2020) Perils and pitfalls of mixed-effects regressionmodels in biology. Peerj, 8.
转载本文请联系原作者获取授权,同时请注明本文来自赖江山科学网博客。
链接地址:https://wap.sciencenet.cn/blog-267448-1322614.html?mobile=1
收藏