||
近年来,随着测序技术的不断升级,测序通量越来越高,同时测序成本直线下降,高通量测序技术逐渐应用在科研、医疗等各个研究领域得到广泛应用。伴随着大数据处理关键技术的突破、数据共享等契机的发展,大数据将在促进生物学发展中发挥重要的作用。
测序技术在生物学研究中的发展分成三个阶段:第一个阶段:genome center唱独角戏。在这个方向刚兴起的初期,人才储备较少,产出数据的成本也很大,只有少量的国家支持的genome center可以从事这方面的系统研究,做生物信息开发的目的也比较明确,就是为了完成基因组中心所承担的一些重大国家科研课题。第二个阶段:高通量测序技术的进步和基因科技服务公司的崛起。当很多科学家看到了有那么多空白的山头待开发,同时数据产出的成本也大幅降低情况下,科学家们对组学研究都跃跃欲试,科技服务的市场需求就出现了,同时经过多年的人才储备,也有了一定数量的技术人员,为科技服务公司的出现打下了人的基础。这个阶段生物信息开发注重的是“pipeline”,这样能提高服务的效率,让公司能更好的发展。第三个阶段:大数据的积累和丰富多样的个性化分析需求。随着NGS技术的不断发展,测序成本不断降低,数据积累也越来越快,同时随着科学家对数据理解的深入,大大开拓了科学家的思路,各种个性化的数据分析想法大量涌出脑海,“personalized”成为了这个阶段的生物信息开发要满足的关键需求。目前,测序技术在生物学研究中的应用已经逐渐进入了第三个阶段,传统基因科技服务公司提供的“pipeline”的分析结果越来越不能满足科研工作者的需求。一方面是分析的工具和个性化的分析需求得不到满足;另一方面,孤立的单个项目的数据分析形式越来越不能满足科研的需要。
Nature Reviews Genetics报道称,目前已发表的高通量测序数据利用率不足20%,很多有价值的信息被研究者所忽略,基于公共数据挖掘和分析将成为科学研究发展的趋势。例如,2015年 Nature Genetics发表的文章通过分析正常组织和各种常见类型癌症组织7256个转录组测序样本,43T转录组数据中鉴定得到58,000个lncRNA;发现上千种lncRNAs 在癌症组织中特异表达,可以作为新的肿瘤标记物。2014年 Genome Biology 发表的文章通过研究13种组织和30个玉米转录组数据中LncRNAs的表达,鉴定出了20163个推测的LncRNAs, 并对LncRNAs的组织特异性的表达调控网络进行了解析。最有代表性的是最大的癌症基因信息的数据库,Cancer Genome Atlas/TCGA蕴藏着难以想象的宝贵信息,围绕TCGA已经有很多重量级文章出现,Pubmed收录的利用其进行数据挖掘发表的文章已经超过1500篇,而且对它的使用必然愈发重要。可以说,已经公开的高通量测序数据如同“金矿”一般,具有极高的学术价值。然而,科研工作者一方面不方便获取符合自己需求的数据,数据的整合、分类、下载也会耗费较多的精力;另一个方面,缺少一个高效、易用的数据分析平台,自主搭建一个大数据分析平台,无论是硬件、软件,还是人力、财力都是巨大的挑战。这两个因素导致大量的基因数据沉睡在哪里,不能很好的挖掘出其中的价值
2016年3月,作为BMKCloud公共数据库项目的一部分,动物、植物、微生物高通量测序数据库正式上线。百迈客云的合作伙伴现在可以在BMKCloud上免费访问三大数据库了。在BMKCloud上将PB规模的高通量测序数据作为共享资源,用户无需下载数据,直接在BMKCloud上利用分析平台进行分析,加速了利用公共数据进行研究和探索的步伐。BMKCloud公共数据库项目的目标是建立植物、动物、细胞系、微生物、宏基因组、疾病高通量测序数据库以及肿瘤高通量测序数据库。目前,动物、植物、微生物高通量测序数据库正式上线。每个数据库中都收集和整理了全世界公开发表的各个物种高通量测序的原始数据及相关论文,为开展各个领域的研究提供准确,全面,最新的高通量测序原始数据和相应文献的整合检索平台。BMKCloud公共数据库项目的数据来源是NCBI的SRA等高通量测序的公共数据,数据来源可靠,涵盖重测序、转录组等各个研究领域(已水稻为例,目前已收录的基因组数据集29910个,转录组数据集2100个)
BMKCloud公共数据库项目建立的目的也是让科研工作者更高效、更快速的利用公共数据,提高公共数据的利用效率。使大数据的挖掘不仅仅局限于癌症的研究,能够在动物、植物、微生物等研究中都得到很好的利用。科研工作者可以根据物种、类型、研究性状、研究结果、测序方法等设置快速检索感兴趣的数据,,所有数据均可一键导入我的数据中保存。然后利用百迈客提供的十大数据分析平台和142款工具进行数据的深度挖掘,高效、快速的挖掘基因大数据。
百迈客云(BMKCloud)是一个基于基因大数据的挖掘,管理和科研协作的整合平台。可以使不具备生物信息分析基础的用户,快速掌握独立的生物信息分析能力,实现高通量数据的深度解读。百迈客云提供:14大生物信息分析平台(重测序、外显子、转录组、非编码RNA等),基本分析+个性化分析,轻松实现原始数据到生物学问题准确解读的转化;143款数据分析工具,涵盖数据处理,文件操作,序列比对,基因注释和图表制作等,满足个性化数据分析需求。百迈客云是国内第一家正式商用的生物云平台,从2014年5月开始开放试用到2015年10月份正式商用。对于广大的科研用户而言,百迈客生物云是一个完整的交钥匙(Turn-Key)解决方案,用户只需要开通云平台账号,就有了属于自己的生物信息分析平台,百迈客云已经成为进行基因大数据的分析的最佳选择。Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-9 07:10
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社