1. GCTA 说明文档
最新版是2021-06-01更新,共有98页:
GCTA说明文档:https://yanglab.westlake.edu.cn/software/gcta/static/gcta_doc_latest.pdf
2. GCTA功能分类
2.1 遗传力、遗传相关、表型预测
GRM:构建亲缘关系矩阵 Inbreeding:计算近交系数 Heritability:估算方差组分和遗传力 Partitioning:将方差组分根据染色体、片段、功能区域进行划分 X chromosome genetic variance: X染色体的方差组分 GREMLd:估计显性效应 Bivariate GREML: 双性状遗传评估 Haseman-Elston regression: 基于SNP的遗传相关 sBLUP:基于BLUP的基因型风险预测
2.2 GWAS分析
fastGWA:稀疏矩阵的LMM模型,fast-GWA模块 fastGWA-GLMM: GLMM模型的GWAS分析模块 MLMA和MLMA-LOCO:稠密矩阵的LMM模型 COJO:条件和联合分析 mtCOJO:多性状条件和联合分析 fastBAT: fastGWA-BB: ACTA-V:
2.3 GWAS数据模拟,群体遗传和孟德尔随机化
模拟GWAS数据 GSMR:孟德尔随机化 PCA和Fst计算 计算近交系数 计算LD
3. 常见问题
1,样本量少的话遗传力异常
遗传力会是0或者1,标准误很大,不正常,不能分析小样本来的数据。Q1:GCTA-REML需要多少的样本? 如果要想达到比较小的标准误(0.1),至少要3160个不相关的样本。
Q2:为何遗传力的标准误很重要? 95%的置信区间是遗传力 +- 1.96*标准误,如果标准误比较大,那么95%的置信区间就比较大(比如0~1),这样意义不大了。
2,估计亲缘关系矩阵计算所需要的内存
这里,介绍了不同的样本数,不同的SNP个数,计算所需要的内存。下面介绍,估算方差组分估计需要的内存。
3. 方差组分估计中LRT的计算
下面介绍,LRT检验的实施方法。
4. 内存报错
如果内存报错,建议用64位的GCTA。因为32位最多支持4G内存,可能不够。
5. 分析非人类的数据
如果分析的是动物数据,需要设置染色体条数。
6. 为什么我的遗传力是0.9999?
对于case-contral数据,可以设置--reml-no-constrain
,这样有可能遗传力大于1.
对于连续性状数据,样本量少的话,标准误比较大,有可能遗传力估计偏高。
7. GCTA可以分析系谱的数据
GCTA可以按照下面操作,分析系谱或家系的数据。
9. 将显著的SNP提取计算方差组分
结果可能会偏高。
10. 可以根据亲缘关系矩阵推断亲子或者全同胞半同胞吗?
可以,但是不准确。
0.5可以看做是一级的:亲子或者全同胞
0.25可以看做是二级的:半同胞或者爷孙
0.125可以看做是三级的:表兄,表妹「GCTA生成的GRM二进制文件读入到R中」两种方法:
1,通过R语言读取二进制文件
2,通过--make-grm-gz
,将二进制文件转化为文本文件
11. GCTA可以计算GBLUP的预测值
在这里插入图片描述12. GCTA分析多性状模型
13. GCTA-GREML如何估算固定效应BLUE值
--covar:是因子协变量 --qcovar:是数值协变量
14. 为何我用GCTA计算的遗传力为负
因为有标准误,数据量小时,标准误大。
可能本身遗传力就很低,考虑到标准误,会有可能负值。
15. 方差组分估算显示not positive definite
方差组分中V不正定,可以尝试其它迭代方法---reml-lag 1
由AI迭代变为Fisher scoring,试一下。
❝欢迎关注我的公众号:
❞育种数据分析之放飞自我
。主要分享R语言,Python,育种数据分析,生物统计,数量遗传学,混合线性模型,GWAS和GS相关的知识。
转载本文请联系原作者获取授权,同时请注明本文来自邓飞科学网博客。
链接地址:https://wap.sciencenet.cn/blog-2577109-1320604.html?mobile=1
收藏