育种数据分析之放飞自我分享 http://blog.sciencenet.cn/u/yijiaobai 关注:生物统计,数量遗传,混合线性模型,生物信息,R,Perl,Python,GWAS,GS相关方法,文章及代码

博文

重复测量数据的分析方法(裂区试验、调和GG法、混合线性模型)

已有 14282 次阅读 2016-12-26 14:18 |个人分类:农学统计|系统分类:论文交流| 重复测量数据, 裂区试验, 混合线性模型

重复测量数据的分析方法

这里主要介绍了重复测量数据的分析方法,分别是:
一般线性模型:
方差分析:这里采用了裂区试验的分析方法
矫正方差分析:通过Greeenhouse-Geisser法对裂区方差分析的F值进行矫正
多元分析:条件不满足时可以通过多元分析的方法进行分析

混合线性模型:
协方差结构:Uniform correlation
协方差结构:Changing variance model with time
协方差结构:Unstructured
协方差结构: Antedependence order 1
协方差结构: Antedependence order 2
协方差结构:AR order 1
协方差结构:AR order 2
协方差结构:Power model (City-block metric)
模型之间的比较(AIC、BIC、LRT检验)

重复测量(repeatedmeasurements)一种测量方法.指对一些个体在短时间内进行次数不多的同类型的测量。

重复测量和随机区组的区别:
重复测量数据在形式上与随机区组设计资料相似(每一个受试者可以看做一个区组),但是两者有着根本的区别。因为区组内部是随机分布的,而且彼此之间相互独立。但是重复测量的观测值之间(无论是不同时间,还是同一小区不同植株)不是独立的,彼此之间是有关联的。

球对称(sphericity):
若重复测量资料满足球对称(sphericity)的假定,可以采用随机区组或者裂区试验的方差分析进行分析,否则,则需要采用其它方法或者对F值进行校正。

球对称的实质:
协方差矩阵的球对称性是指该矩阵主对角线元素(即方差)相等,非主对角线元素(即协方差)为0,这种矩阵说明观测值之间没有相关性,这也是一元方差分析方法的方差齐性的基本假定

不满足球形检验怎么办?
但是如果数据不满足球对称性的话,一元方差分析的结果是有偏的,会增大I类错误的概率,这时就需要使用多元分析方法或者对和时间有关的F统计量的自由度进行校正,校正的常用方法有
1.Greeenhouse-Geisser法:简称G-G法
2.Huynh-Feldt法:简称H-F法
3.Lower-bound法:简称L-B下界法

更高级的方法:混合线性模型

还有一种应用范围更为广泛的方法是混合线性模型分析重复测量数据,它可以选择协方差结构对重复测量资料的固定效应和随机效应参数及协方差矩阵进行参数估计和统计检验,混合线性模型是处理重复测量资料的有力方法,它对资料的协方差结构要求宽松,且结论可靠。而单因素方差分析对资料的协方差结构有严格的限定。

示例数据演示:

示例数据:牛(Calf)在两种处理下(Treatment),连续19周(week)时间中体重发生的变化。
分别采用方差分析、G-G法校正方差分析、混合线性模型来分析同一组数据。

数据类型:

也可以将时间变为一列,数据格式整理为:

作图模型:


可以看出,无论是A处理,还是B处理,Calf牛的重量都是随着时间而增加的。

分析方法:
首先用方差分析的方法,使用裂区试验设计的方法,这意味着不同的时间段有着相同的方差(很明显,这个假设是错误的)。裂区试验设计的另一个假设是裂区也是随机的,这里time是裂区,这也是不可能随机的。

下面是用方差分析的方法,它忽略了这些假定:
A split-plot alsoassumes that the split-units are also randomised, which for time is notpossible. Since for each calf its weight at each time is in the samewhole-plot, we have seen with a randomised block that this is equivalent to a uniformcorrelation structure over time.
所以Calf其实是主区,时间是裂区。


在混合线性模型之前,统计学家推出了一种测试时间方差协方差结构是否是独立均一性关联的结构(uniform correlation structure),如果这种假设不通过,就通过矫正的方法来进行修改方差分析结果。
Before the adventof modern computers, statisticians developed tests of whether a uniformcorrelation structure (labelled “symmetry of the covariance matrix”) isappropriate over time. When this assumption failed, an adjustment to the ANOVAis made by modifying the degrees of freedom in the split-plot part of theANOVA. GenStat offers this in the Stats > Repeated Measurements > Analysis of Variance menu.

对于方差分析的裂区试验分析重复测量数据,这一种模型更容易书写:



可以看出假定不满足,因此就采用GG方法进行p值的校正。
如果方差分析不能满足,可以用多元方差分析的结果:


值得注意的是:
这种假设假定时间间的方差是一样的,不变的,这对于植物和动物的生长数据来说,显然是错误的。

重复测量:Correlate Models by REML,数据排列时需要每个时间为一列数据,这样方便定义时间间的联系。

我们可以看出:
混线性模型的F值和df与方差分析的df和F值是一样的:

混合线性模型的残差的方差组分为267.7,而方差分析中,因为裂区试验有两个残差,组分分别是202.764+64.893

因为我们之前估计到时间的theta1 位0.7576,也可以由267.7*0.7576=202.8来得到相同的结果。

如果我们假设方差随着时间变化,协方差矩阵是heterogeneity

一致性的Deviance

随着时间变化的Deviance:

对其进行卡方检验:

亦可以用GenStat的函数cuchi

Heterogeneity方差协方差假定,方差不一致,但是他们的变化应该是一致的。实际上,时间越近他们的关系越大,这说明模型还有进一步更新的必要性。
Unsructured, autoregressive/power andantedenpendence models

对于unstructed结构的矩阵,它没有特别的结果,方差和协方差都没有一定的规律,我们可以运行这个模型,并将残差的结构通过矩阵的形式打印出来:


我们可以根据方差和协方差计算出不同week之间的相关系数,比如第一周和第二周的相关系数计算方法:98.8/sqrt(105.4*131.8)=0.838
Unstructured 的deviance为:

我们可以用Power correlation model(方差随着时间而变化)看看两者的显著性,用LRT检验:

LRT检验的结果为:

可以看出,Power模型不如Unstructured模型好。

如果我们来比较Antedependence order 1和Antedependence order2的模型:

Order2:

LRT检验:

我们可以看出Antedependence Order2模型要更好一点。

至于Unstructured和Antedepence order 2模型,也可以进行LRT检验:

可以看出两者之间不显著。

除了进行LRT检验,我们也可以参考AIC和BIC的指标来评价模型的好坏。



对于数据分析,对于软件操作,对于数据整理,对于结果理解,如果您有任何问题,欢迎联系我。

公众号:R-breeding
image



https://wap.sciencenet.cn/blog-2577109-1021987.html

上一篇:增广试验设计(augmented design)分析流程(R、GenStat、SAS)
下一篇:R语言 对系谱信息的图形化展示
收藏 IP: 52.231.154.*| 热度|

1 王明明

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-3-29 16:13

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部