博文

aBIOTECH | 宋述慧/章张-国家基因组科学数据中心植物基因组学资源体系综述

已有 157 次阅读 2024-2-6 09:36 |个人分类:论文|系统分类:论文交流

aBIOTECH | 宋述慧/章张-国家基因组科学数据中心植物基因组学资源体系综述

随着测序技术的快速发展以及在农作物育种改良中的广泛应用，大规模、多维度的组学数据急速积累。近日，中国科学院北京基因组研究所（国家生物信息中心）宋述慧和章张研究员，在aBIOTECH发表题为“Plant genomic resources at National Genomics Data Center: Assisting in data-driven breeding applications”的综述文章。

文章从多组学数据资源归档库、基于遗传变异或基因的功能知识库、以及特色植物综合资源库三方面系统总结了当前国家基因组科学数据中心（NGDC）的植物组学数据资源体系，同时介绍了NGDC数据检索和分析的工具，并对未来作物育种应用相关资源的建设与发展提出了展望。

我国作为“农业大国”和“测序大国”，开发用于收集和存储多组学数据的归档库对数据的长期保存和开放共享具有重要意义。自2016年起，NGDC逐步建立了服务原始测序数据（GSA）、基因组数据（GWH）、基因序列数据（GenBase）、遗传变异数据（GVM）和图像表型数据（OPIA）汇交管理的归档数据库，汇聚整合全球范围内的组学数据资源。截至2023年8月，GSA已归档1850种植物近4500 TB的原始组学测序数据；GWH收录了来自1423种植物的10594条基因组序列；GenBase存储了植物相关的1085条蛋白质序列和1024条核苷酸序列；GVM已收集来自30种植物34643个样本的遗传变异数据；OPIA汇总了11种植物的566255张植物图像。上述五个数据库均开发了用户汇交系统，服务全球用户数据提交、统一管理和质量控制，并提供公开数据集的开放共享。基于归档数据资源，NGDC进一步在不同组学层面进行深度解析并建立了系列信息库，如变核基因组序列变异信息图谱GVM、叶绿体基因组变异资源CGIR、植物泛基因组PlantPan、基因表达图谱GEN和全基因组甲基化图谱MethBank。

Fig. 1 Overview of database resources and application tools for plants in the CNCB-NGDC

变异或基因的功能知识有利于帮助我们理解复杂表型性状的分子机制，通过高质量文献审编和系统整理，已构建系列植物基因或遗传变异的知识库。其中，GWAS Atlas收录了10种植物269138条全基因组变异-表型关联知识；LSD提供了与叶片衰老相关的基因、突变体、表型及参考文献等信息；PED整合了1621种植物的98个RNA编辑因子和20836个编辑事件；ICG汇总了278种植物的1216个实验验证的高质量内参基因，关联了660个相应的实验适用场景。

此外，NGDC还建成了多个主要粮食作物和经济作物的特色综合资源平台。IC4R是水稻多组学数据平台，提供了56221个编码蛋白基因，6259个非编码RNA和4373个环形RNA的高质量注释信息；SorGSD提供了289个高粱品种的39547621个基因组变异位点，以及关键品系的表型特征和穗图片；SoyOmics是面向大豆的多维组学资源库，包括27个大豆品种的基因组和泛基因组序列、约3800万个基因组变异、多个组织的基因表达情况和约27000条大豆表型记录等；TCOD整合了木薯、橡胶树、咖啡、可可等15种热带作物的基因组序列、功能基因、基因组变异、基因表达和种质描述信息。

最后，文章介绍了的数据搜索引擎BIG Search和分析工具库BIT。BIG Search是NGDC自主开发的综合搜索引擎，支持一站式、跨库快速检索国内外各大数据平台中的相关资源。BIT是集成多种在线分析工具的生物信息工具箱，可用于数据可视化、序列相似性比对、基因组构成、基因表达、表观遗传及单倍型等多种类型分析。

NGDC未来将继续跟进植物科学研究前沿，如单细胞组学技术和空间组学技术的发展，整合更丰富的组学数据类型，结合人工智能等新的技术手段解析多维组学数据与重要表型特征之间错综复杂的调控关系，持续不断地更新和完善现有数据资源体系，为从事植物育种研究的科研工作者提供宝贵资源。

中国科学院北京基因组研究所（国家生物信息中心）工程师田东梅和徐添翼、博士生康海龙为论文第一作者，宋述慧研究员和章张研究员为共同通讯作者。该研究得到了科技创新2030-重大项目、国家自然科学基金、中国科学院战略性先导科技专项以及中国科学院青促会等项目的资助。

引用本文：

Tian, D., Xu, T., Kang, H. et al. Plant genomic resources at National Genomics Data Center: assisting in data-driven breeding applications. aBIOTECH (2024). https://doi.org/10.1007/s42994-023-00134-4

作者简介

宋述慧，中国科学院北京基因组研究所（国家生物信息中心）研究员，国家基因组科学数据中心副主任。北京市科技新星，2017年入选中国科学院青年创新促进会会员，2021年评为青促会优秀会员。现担任中国生物工程学会计算生物学与生物信息学专业委员，北京生物信息学研究会会员。长期从事生物信息大数据整合、挖掘及应用研究。主导设计并建成了国内首个规模最大的基因组序列变异库与国际首个多物种序列变异与表型性状关联的知识库；建立了系列基于多组学关联研究的变异知识挖掘方法与基于机器学习的品系鉴定分类软件等，成果入选“2020年度中国生物信息学十大进展”。近年来在PNAS，Genome Biology，Nucleic Acids Research，Mol Plant, GPB等领域内顶级期刊发表同行评审论文50余篇。

章张，中国科学院北京基因组研究所（国家生物信息中心）研究员，中国科学院特聘研究员，中国科学院大学岗位教授，国家基因组科学数据中心副主任，，长江青年学者。长期从事生物信息学基础研究，聚焦生物大数据整合和信息挖掘研究，围绕国家基因组科学数据中心建设，研发生物信息多维数据资源体系及其挖掘解析新算法和新工具。研究成果多次入选“中国生物信息学十大进展”，获中国科学院大学“领雁金奖”引航奖，中国科学院大学-必和必拓导师科研奖。

转载本文请联系原作者获取授权，同时请注明本文来自李楠科学网博客。
链接地址：https://wap.sciencenet.cn/blog-3458049-1420771.html

上一篇：aBIOTECH | 程时锋-豌豆功能基因组与分子育种研究进展与展望
下一篇：aBIOTECH | 彭友良/陈倩-揭示E3连接酶DGS1介导的抗稻瘟病机制

收藏 IP: 175.169.181.*| 热度|

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

数据加载中...

返回顶部

李楠

扫一扫，分享此博文

aBIOTECH分享 http://blog.sciencenet.cn/u/aBIOTECH

博文

aBIOTECH | 宋述慧/章张-国家基因组科学数据中心植物基因组学资源体系综述

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

李楠

全部作者的其他最新博文

全部精选博文导读

aBIOTECH分享 http://blog.sciencenet.cn/u/aBIOTECH

博文

aBIOTECH | 宋述慧/章张-国家基因组科学数据中心植物基因组学资源体系综述

当前推荐数：0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

李楠

全部作者的其他最新博文

全部精选博文导读

该博文允许注册用户评论请点击登录评论 (0 个评论)