ChengyangWang的个人博客分享 http://blog.sciencenet.cn/u/ChengyangWang

博文

我用买服务器的钱做了这件事,评职称,我怕谁?

已有 3754 次阅读 2018-4-26 15:09 |个人分类:生物信息|系统分类:科研笔记

 

本文转载自嘉因微信公众号,已获得授权。查看最新文章,敬请关注嘉因,微信ID:rainbow-genome

作者:小丫  来源: 嘉因

我是临床医生,经常遇到一些很有特点的患者,就想采点血、取点组织测个序。测完序怎么分析?这才是问题的关键。主任说:咱们买个服务器吧,再招个会做分析的人。我们主任靠谱,赞!!!可是,这几天的GATK培训,颠覆了我对这个问题的认知。


我是生信背景的医科大学老师,经常遇到临床医生来找我们谈合作,他们手里有很多肿瘤组织,就想砸几万几十万测个序,觉得交给我稍一分析,文章就出来了。有的甚至已经测了几十例患者才找我们,没有分组的设计,没有正常对照。问题是你想讲什么故事?想清楚才好设计分组和对照,然后才是收集样本啊!经过几天的GATK培训,让我重新思考了自己的职业发展。


到底是什么样的培训有这么神奇的力量呢?,回复“GATK”获得培训ppt和练习文档(worksheets),过后Broad会放出培训视频,期待。




知识点


医科大学里生信背景的贝塔猫跟我们分享了参加GATK培训的感受。小丫最关心以下两个问题,贝塔猫作出了清晰的解答:

  1. 本地运行GATK速度慢,怎样高性价比的配置服务器

  2. 如果用阿里云运行GATK,要上传那么大的测序文件,受制于奇慢无比的网速,怎么解决?




从组织者那里得知本次GATK4培训的名额只有80个,而报名的人数已经超过了400,能够被选中真的跟中奖一样开心。


来到现场,了解到与会的不仅有国家卫计委、国家基因组中心、中国科学院、北大、浙大、哈工大等高校、301、道培等各大医院、华大、诺和、安诺等测序公司的科研人员、还有来自韩国、新加坡的友邦人士,看得出GATK在中国乃至亚洲的基因组数据分析行业中普及程度很高。


4天的培训分讲解和实践两个部分。一般上午会讲解GATK4分析流程和算法概要(见ppt),下午主要是实践操作。Broad Institute的老师从Docker、IGV等辅助工具的用法开始、手把手的教授如何搭建GATK工作环境、使用GATK和工作流描述语言(WDL)寻找germline突变和体细胞突变。


几天下来,学员们已经能够完成GATK的基本操作了。大家如果有兴趣,可参考GATK实践文档,很快就能上手。此外,在阿里云林河山的帮助下还试用了阿里云搭建的GATK工作环境。


回答小丫的第一个问题:如何解决GATK速度慢的问题,最好的办法是什么?


GATK之所以能够成为主流基因组分析工具,是因为其质量控制过程复杂、分析结果比较准确。但不可否认的是GATK运行速度慢,想在普通的2U服务器上完成30X的人基因组数据,一般用时在3天以上,这样的用户体验当然会影响GATK的使用和推广。因此,为了提高计算效率,GATK的开发者们为其内部很多模块开发了Spark版本,并嵌入Intel为其开发的GenomicDB、Genomic Kernal Library(GKL),能一定程度上提高GATK的速度。但是,如果想在本地使用普通的服务器把单样本计算时间控制在几个小时内,需要增配硬件,添加SSD来扩充内存,或配置PGLA,从而进一步提高并行运算速度。目前,Intel基于fabric、SSD和FPGA等技术开发了基因组学堆栈BIGstack,能使GATK分析流程提高5倍的性能。


从与会的同仁那里了解到,各单位目前都是通过增加配置,在本地服务器中提高GATK运行效率。但是,想短时间内拿到GATK的结果,其实可以不花钱买硬件,直接购买使用云计算资源或直接购买云平台提供的基因组分析服务要划算的多,目前国外的云计算平台有Google cloud、Seven Bridge、Amazon,国内有阿里云、腾讯云。从参会的阿里云和腾讯云平台技术负责人那里获悉,他们使用FPGA、SSD等技术搭建的GATK分析平台能够将NA12878的30X基因组数据的分析时间缩短到10个小时内。


回答小丫的第二个问题:要上传那么大的测序文件,网速慢怎么解决?


我们各自上传数据,网速不会超过百兆,对于上百G的基因组数据来说太慢。这个问题可以从源头解决:测序公司与云平台的专线传输能达到每秒10G的速度,完美解决了大数据传输速度和安全传输的问题。目前,华大、诺和等测序巨头已经可以将数据直接从测序仪传输到国内主流云平台,在云平台完成数据交付。


充分使用云平台的存储和计算资源,才能保证生物大数据的高效存储、整合和分析。也就是说,把对计算资源要求高的步骤都放在云端完成。测序公司测完序,直接把测序数据传到阿里云,高速运行GATK,很快转换成VCF文件。


我们不用配置高端服务器,也不需要费神做安装和维护工作,而是把更多的精力放在具体生物学问题的个性化分析上。GATK跟转录调控有什么关系?打开下面链接进一步了解:



想用ChIP-seqATAC-seq研究感兴趣的基因?想整合ChIP-seq、ATAC-seq、eCLIP/RIP-seq、RNA-seq数据寻找线索?找嘉因生物吧!从实验、测序,到多种数据整合分析,为您一站式解决。(点击文中蓝字了解详情)




嘉因公众号定位:客户共性问题解答,生信学习资源导航,高通量实验导购 | 为您提供高通量实验-测序-分析-验证一站式解决方案

130225t2nzqrppn22nna6k.jpg


电话:021-61539657

Email:marketing@rainbow-genome.com
地址:上海市杨浦区国伟路135号10号楼305室




https://wap.sciencenet.cn/blog-3372875-1111026.html

上一篇:CNS最爱的配色,在网页上点鼠标就能抓到 | 接力第四棒
下一篇:我把Nature的Figure画成了蒙娜丽莎
收藏 IP: 124.77.56.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2023-1-30 12:59

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部