本节,介绍一下官网上面GCTA的功能描述。
1. 最新功能
GCTA在2010年首次释放,现在的版本是1.94.0beta,2021年到现在更新了3次,重要的更新时增加了fastGWA
、fastGWA-GLMM
,相关文章发表在NG上。
2. 2019 NG:fast-LMM模型
「2019年的NG,介绍了fast-LMM模型,分析45万个个体,2048个性状,无压力!」
这个主要分析连续数量性状。
文献下载:
01-GCTA-fast-LMM-2019-NG-10.1038@s41588-019-0530-8.pdf
3. 2021年NG:fast-GLMM模型
「2021年的NG,介绍了fast-GLMM模型,分析1184万个个体,2989个二元性状性状,无压力!」
这个主要分析二分类性状!
文献下载:
02-GCTA-fast-GLMM-2021-NG-10.1038@s41588-019-0530-8.pdf
4. 媒体报告
GCTA的作者杨剑老师,也到国内的西湖大学了,跟大牛的物理距离更近啦
https://www.westlake.edu.cn/research/achievements/202111/t20211116_15322.shtml
5. 西湖大学官网介绍fast-GLMM
https://www.westlake.edu.cn/research/achievements/202111/t20211116_15322.shtml
❝2021年11月4日,西湖大学生命科学学院杨剑教授团队在《自然-遗传学》Nature Genetics 发表题为A generalized linear mixed model association tool for biobank-scale data的论文。
❞
❝该研究团队开发出了一款极为高效的广义线性混合模型(Generalized Linear Mixed Model,GLMM)关联分析工具,将其命名为fastGWA-GLMM,专门针对二元性状的全基因组关联研究(Genome-Wide Association Study,简称GWAS)。fastGWA-GLMM以及该团队之前开发的fastGWA(主要针对连续型性状)是目前唯一可应用于百万级生物样本库的混合模型GWAS分析工具。
❞
❝人类常见的性状,包括我们的行为、生理特征、疾病易感性,大多都是由大量的、效应微小的DNA片段变化造成的。这些被称为遗传变异的DNA变化与哪些疾病的发生有关?
❞
❝GWAS就是一种被广泛用于检测遗传变异与表型之间关联的实验设计。简单地说,它是通过比较大量人群的遗传信息特征,找到特定的遗传变异,利用统计学的方法寻找与复杂疾病相关的遗传因素,揭示与疾病发生、发展相关的基因和调控机制。
❞
❝但GWAS受制于数据分析能力。尤其是近年来,随着十万级、甚至百万级大型生物样本库的出现,例如英国生物样本库(UK Biobank,简称UKB)、美国的基因检测公司23andMe等,原有的GWAS分析工具“捉襟见肘”。
❞
❝人体的性状可以大致分为两类,一种是连续型数量性状,指的是个体间的差异可以用数量区别,例如身高、体重等;另一种是二元性状,表现为对立面的两种状态,例如患病还是不患病。UKB中有3000-4000个性状,其中一半以上是“非此即彼”的二元性状。
❞
❝过去常用的GWAS分析工具主要是基于线性回归模型(Linear Regression,LR),但LR的缺点是忽略了群体结构以及人与人之间的亲缘关系,从而会影响结果的准确性。随后出现的基于线性混合模型(Linear Mixed Model,LMM)的方法,可以有效控制样本中的群体结构和亲缘相关,无需移除样本中大量的亲缘相关个体,从而在避免虚假关联的条件下达到更高的统计功效。但线性混合模型原则上只适用于连续型性状,当它被应用于二元性状时,得到的只是近似解,结果并不精确。广义线性模型正好能弥补上述二者的缺陷,但广义线性模型有着比一般线性模型更高的计算复杂度。于是,科学家们开始思考如何开发一种可以高效地分析大型生物样本库数据的广义线性模型方法。
❞
❝图1 fastGWA-GLMM和SAIGE的运算速度和内存使用量的比较杨剑团队提出了一系列基于稀疏矩阵的算法,突破了传统广义线性模型和线性混合模型耗时、耗计算资源的瓶颈,开发出了一款极为高效的基于广义线性混合模型的二元性状全基因组关联分析工具:fastGWA-GLMM。
❞
❝该团队用真实数据展示了fastGWA-GLMM极高的运算效率,远超同类二元性状关联分析方法,运算效率最高可达到传统方法的36倍。而在一个模拟的两百万人的群体中(每个人有约1千2百万个变异位点),fastGWA-GLMM在使用16个CPU核和32GB内存的情况下只需要17小时就可以完成一个二元性状的全基因关联分析,而这对于原有的工具是几乎不可能完成的任务。fastGWA-GLMM对大量数据的快速处理能力,对即将到来的百万级生物样本库具有重大意义。
❞
「16核32G内存,17小时分析了百万人的二分类性状!!!」
图2 fastGWA-GLMM在2百万样本中的运算速度和内存使用量❝作为一款稳健、强大且高效的关联分析工具,fastGWA-GLMM可以应用于几乎所有的大型生物样本库的二元性状关联分析。杨剑团队已经用fastGWA-GLMM分析了英国生物样本库中的2989个二元性状,并将所有的关联分析结果共享在他们的在线数据平台上(http://fastgwa.info/ukbimpbin)。用户可以在这个平台上无限制地浏览、检索、查询、下载所有的结果数据。并且,该方法已被整合至该团队开发的开源软件包GCTA中(https://yanglab.westlake.edu.cn/software/gcta)。fastGWA和fastGWA-GLMM或将成为未来超大型生物样本库关联分析研究不可或缺的工具之一,其破解人类复杂疾病遗传奥秘的应用潜力不可估量。
❞
❝澳大利亚昆士兰大学博士生、西湖大学访问学生江龙达(现为纽约基因组中心博士后)、澳大利亚昆士兰大学郑志利博士为本文共同第一作者,西湖大学杨剑教授为本文通讯作者。
❞
❝论文链接:https://www.nature.com/articles/s41588-021-00954-4
❞
❝杨剑团队网站:https://yanglab.westlake.edu.cn/
❞
6. GCTA更新日志
Update log
Version 1.94.0beta (4 Jan 2022)
A major update of the software to be compatible with ARM architecture (credits to the openEuler BIO-SIG). Proofreading of all the error and warning messages. Changed the buffer size of line field from 50 to 512 bytes in ACAT.
Version 1.93.3beta2 (17 Aug 2021)
Fixed a bug when running fastGWA with genotype files in BGEN format. Fixed an issue when running fastGWA with a stringent filtering which leads to not sufficient null SNPs (i.e., < 100) to estimate the parameter gamma.
Version 1.93.3beta (1 Jun 2021)
Added a new module fastGWA-GLMM (a resource-efficient generalized linear mixed model association tool for biobank-scale data). Added a new module fastGWA-BB (a set-based burden test for binary traits based on the framework of fastGWA-GLMM). Added a new module ACAT-V (a very efficient summary-level set-based test that only requires GWAS summary statistics, originally proposed by Liu et al, 2019).
……
30 Aug, 2010
first release.
❝欢迎关注我的公众号:
❞育种数据分析之放飞自我
。主要分享R语言,Python,育种数据分析,生物统计,数量遗传学,混合线性模型,GWAS和GS相关的知识。
转载本文请联系原作者获取授权,同时请注明本文来自邓飞科学网博客。
链接地址:https://wap.sciencenet.cn/blog-2577109-1320603.html?mobile=1
收藏