shenwl的个人博客分享 http://blog.sciencenet.cn/u/shenwl

博文

关于人类基因组的一些说明

已有 4278 次阅读 2020-4-21 09:00 |系统分类:科研笔记

GRC

人类基因组计划之初,曾试图勾勒出一套完整的、一致性的基因组序列图谱,但无论是测序技术、组装算法还是基因组本身的多样性问题,都让这套“纯粹的”参考基因组无法实现。目前的人类参考基因组由Wellcome Sanger Institute、EBI、NCBI等多家研究机构成员组成的Genome Reference Consortium(GRC)负责更新和维护。

目前发布的人类参考基因组,主要包含以下序列:

  • Assembled chromosomes:22+XY+M,即23对染色体和线粒体基因组,作为日常研究分析的主要序列

  • Unlocalized sequences:已被定为到某条染色体上,但方向或具体位置仍未确定,以_random结尾

  • Unplaced sequences:尚未被定位到某条染色体,以chrUn_开头

  • Alternate loci:不同的单倍体型,一般以_alt结尾,也包括HLA序列

  • EBV & decoy sequences:不属于人类基因组,但是高通量测序时会被测到的序列,标注为chrEBV及以_decoy结尾的序列

GRC会不定期以majorminor的形式对参考基因组进行更新。major表示基因组原序列碱基或坐标有相对较大的改动,会提供新的编号,如GRCh37、GRCh38等;minor则是patch的形式,如GRCh38.p13等,其基因组原序列无变动,主要是新增了fix patch和noval patch两种,其中fix patch是对原基因组序列的更新和修正,其内容会在下一次major中并入,noval patch则是新的单倍体型。

版本选用

我们在下载使用参考基因组的时候,会发现即使是同样的GRCh38版本,NCBI、UCSC等却提供了各种各样的子版本形式。关于基因组版本的选择,Heng Li有比较好的说明。同时,NCBI提供了analysis set版本用于分析,总结起来主要需注意这几点:

  • Unlocalized and unplaced sequences:建议选用。这部分序列虽不知道具体位置,但依然为人类基因组上已确定包含的片段,不选用会导致错误比对结果

  • ALT:除非特定关注ALT上的相关基因,否则不建议选用。这部分序列在aligner中往往对应为多比对序列,mapq值或很低或为零,会对后续分析带来干扰。如果需要使用,可参考GATK提供的含ALT基因组的相关流程,另外,bwa有相应的bwakit用于处理含ALT的基因组序列比对问题。

  • PAR:拟常染色体区域,位于X和Y染色体,不会被单独标注,但是在不同的版本中序列呈现方式不同,如在analysis set中,Y染色体的PAR会被hard-masked为N

  • EBV & decoy sequences:这些序列只会轻微影响比对结果,但亦可在质控时提供部分帮助

  • 另外,analysis set还在rCRS、semi-ambiguous IUB codes等处略有不同

我们可以选择从NCBI或者GATK的bundle中下载人类基因组参考序列,并可通过fai文件来判断不同版本所包含的序列信息,以帮助自己选择。


原文链接https://wenlongshen.github.io/2020/03/26/Reference-Genome/



https://wap.sciencenet.cn/blog-543513-1229366.html

上一篇:宏基因组常用分析流程简介
收藏 IP: 61.148.243.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-28 00:38

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部