||
使用与基于谱系预测相同的混合模型方程,但用基于分子标记的G矩阵代替A矩阵来计算基因组估计育种值(genomic estimated breeding values,GEBV),这种方法就称为GBLUP。相对地,基于谱系的方法就可以称为ABLUP。GBLUP也是基因组选择方法之一。
采用《动植物育种遗传数据分析》书中的玉米试验数据为例,数据读取代码如下:
!RML !DEBUG !LOG !rename !ARGS 1 2 !OUT !WORK 8 Title: GBLUP. #multivariate GBLUP model from raw data. # MAIZE S1 lines # env , rep , plot , line , height , dts # CLY_2015 ,1,1, 12FL0022-5 ,160,65 env !A rep !I plot !I line !P #associate with pedigree height yield !FOLDER D:\Isikcodes\data2\ Maize_S1_pedigree.csv !SKIP 1 #pedigree file Maize_S1_G.grm !PSD #G matrix Maize_S1_traits.csv !SKIP 1 !CONTINUE !MAXIT 35 !MVREMOVE !DDF -1 !DOPART $A
基于谱系ABLUP的模型代码如下:
// Ablup !PART 1 #univariate IDV models yield ~ mu env !r rep.env nrm(line) nrm(line).env residual at(env).units
运行结果如下:
// ablup results 8 LogL= -4773.22 1409 DF Akaike Information Criterion 9564.44 (assuming 9 parameters). Bayesian Information Criterion 9611.70 Analysis of yield Wald F statisticsSource of Variation NumDF DenDF F-inc P-inc mu 1 4606.03 env 5 22.56 Model_Term Order Gamma Sigma Z_ratio %C rep.env 12 7.05639 7.05639 1.25 0 P nrm(line) 507 160.314 160.314 8.51 0 P nrm(line).env 3042 effects env 6 34.7256 34.7256 2.59 0 P units 342 203.691 203.691 8.48 0 P units 338 152.637 152.637 8.20 0 P units 321 248.408 248.408 9.20 0 P units 138 216.661 216.661 6.44 0 P units 138 221.671 221.671 6.78 0 P units 138 261.619 261.619 6.85 0 P rep.env 12 effects fitted. nrm(line) 507 effects fitted, 244 were zero. nrm(line).env 3042 effects fitted, 2069 were zero. Notice: LogDet(GRM) was Zero! Finished: Sat May 16 11:19:07 2020 LogL Converged
基于标记GBLUP的模型代码如下:
// Gblup !PART 1 #univariate IDV models yield ~ mu env !r rep.env grm(line) grm(line).env residual at(env).units
运行结果如下:
// gblup results
9 LogL= -4764.21 1410 DF
Akaike Information Criterion 9546.42 (assuming 9 parameters).
Bayesian Information Criterion 9593.69
Analysis of yield
Wald F statistics
Source of Variation NumDF DenDF F-inc P-inc
mu 1 7161.89
env 5 25.13
Model_Term Order Gamma Sigma Z_ratio %C
rep.env 12 6.26223 6.26223 1.18 0 P
grm(line) 508 258.058 258.058 7.44 0 P
grm(line).env 3048 effects
env 6 17.3738 17.3738 2.17 0 P
units 342 212.400 212.400 10.37 0 P
units 338 175.741 175.741 10.02 0 P
units 321 276.711 276.711 10.74 0 P
units 138 233.282 233.282 6.99 0 P
units 138 244.034 244.034 7.21 0 P
units 138 280.636 280.636 7.30 0 P
rep.env 12 effects fitted.
grm(line) 508 effects fitted.
grm(line).env 3048 effects fitted, 1 singular.
Finished: Sat May 16 11:03:19 2020 LogL Converged
对于ABLUP模型和GBLUP模型的结果可知,本例中,GBLUP模型估计的加性方差line由ABLUP的160.314提高到258.058。此外,各环境方差项稍有不同。
与ABLUP一样,有表型记录的个体基因组育种值的预测可靠性将高于无表型的个体。
使用Echidna进行GBLUP分析,其方法与ASReml类似,同样对于标记数据的样本ID如何传递到表型数据的样本ID,两者需要一致的,而实际中,可能会不一致。一种简单的处理方式,把标记数据ID先单独提取,创建谱系数据,有已知亲本的填上亲本代码,所有未知亲本的均设为零或NA,再利用synbreed包或者其它方法,结合这份谱系,生成G矩阵,最后通过synbreed包输出G矩阵以供Echidna或ASReml使用。这样,就可参照本例,数据文件的摆放次序:谱系文件,G矩阵文件,数据文件。
一般来说,植物基因组选择比动物的要复杂,由于植物受自然环境的影响较大,而且不同环境往往差异很大,对于林木更是如此。因此,植物GBLUP模型,除了要关注随机效应项的方差结构外,更要注意误差项的方差结构。此外,还要注意表型数据的精准测定。其余的,基本上就是基因组选择的共性问题,比如:遗传结构、标记数量、统计模型、交叉验证等等。
总的来说,基因组选择在植物尤其林木育种领域的应用潜力很大。将来,对于所有作物,基因型分型可能会成为一种常规手段,同时也意味着数据分析将越来越重要,且也越来越专业。
一个好消息:Echidna软件,现在国内也可以在官网(https://www.echidnamms.org)直接下载了!
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-9-23 18:29
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社