育种数据分析之放飞自我分享 http://blog.sciencenet.cn/u/yijiaobai 关注:生物统计,数量遗传,混合线性模型,生物信息,R,Perl,Python,GWAS,GS相关方法,文章及代码

博文

增广试验设计(augmented design)分析流程(R、GenStat、SAS)

已有 7099 次阅读 2016-12-15 19:54 |个人分类:农学统计|系统分类:论文交流

数据:这三个数据内容是一致的。

data.txt

data.gsh

data.xlsx

参考资料:


SASprogramAugDes.pdf


R代码:

用R语言包进行增广设计数据分析.R

R语言生成的结果:

R语言处理的结果.csv

R语言分析的结果主要是根据一般线性模型,其实质是对方差分析的进一步调整,所谓的调和均值,其实就是混线性模型中,cul+block都当做固定因子的cul的predict means(blup值)。

分析结果比较低级,还没有测试过数据量大和不平衡的情况,总之,靠方差分析的缝缝补补不如用混线性模型分析的功能强大和实用。



下面是GenStat分析的流程:

数据如下:



Newentryc这两列主要是为了区分对照和测试品种两个因素。

New的建立原则是,如果entry为对照,则它就是0,否则是1.那么new.entry就是代表品种

Entryc的原则是,如果是品种,就为999(一个新的水平),如果是对照,则为其本身。那么,entryc其实就是对照。我们先按照一般的分析:EntryBlock都当做固定因子:



方差分析:





我们来看一下同一区组内的品种的lsd,对照的lsd

不同区组内品种的lsd,对照的lsd





可以看出:

不同区组见品种的lsd最大,为0.9613,因为它们不在一个区组内,可利用的信息较少。

同一区组间,品种的lsd0.8325,因为没有重复

品种与对照的lsd0.7075,因为对照有重复

对照与对照之间lsd最小,为0.3399,因为都有对照,控制的最好。



entryblock都当做随机因子,计算blup值,并排名:






可以看出排名前10的品种分别是:31,23,47,30,11,34,14,27,20,25



如果不进行统计分析,根据原始数据进行排名,我们去掉对照,剩下的排名为:

31,23,47,30,34,11,27,14,40,20



两者比较前10名的排名可以看出,前四名没有变化,第五名和第六名顺序反了,第七名和第八名反了,blup25位第10名,但根据平均值排序则没有出现前10名。

在平均值中出现的第9名(40号品种),没有出现在blup的前10名中。


由此可以看出,根据平均值排名和blup排名基本趋势是一样的,但是也有差异,因为blup去除了区组的影响,估计的是品种的育种值。这只是前10名的差异,前30名差异更大,显然,用blup值进行选择有很大的优势。




将测试品种和对照分开进行考虑:



一般认为对照应当做固定因子,区组当做随机因子。

品种可以当做固定因子,也可以当做随机因子。因为我们需要根据blup对其进行排序选择,因此,这里我们将其当做随机因子。

这里entryc是对照,entry.new是测试品种,block是区组。



方差组分:



估算测试品种的blup,并对其排序:



第一个是测试品种的blup,第二个是所有参试品种(包括对照的)blup值,可以看出两者顺序也有一定差别。一般认为,第一种方法,即将对照当成固定因子,能够去掉更多的误差,得到的blup值更准确。



Blupsas得到的结果是一致的:



左边是sas的结果,右边是genstat的结果。但是genstat更简便一点。




如果您对于数据分析,对于软件操作,对于数据整理,对于结果理解,有任何问题,欢迎联系我。

公众号:R-breeding
image





https://wap.sciencenet.cn/blog-2577109-1020976.html

上一篇:免费申请育种管理系统BMS
下一篇:重复测量数据的分析方法(裂区试验、调和GG法、混合线性模型)
收藏 IP: 52.175.48.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-29 09:23

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部