二. 病毒基因组结构特点
与真核细胞DNA存在大量冗余序列现象不同,病毒基因组的大部分核酸序列是蛋白质编码基因,只有很短的核酸序列不被翻译,称为非翻译区(untranslated regions,UTR;nontranslated regions,NTR)或非编码序列(non coding regions,NCR)。
(一)病毒基因组核酸末端NCR
病毒基因组核酸的一般性结构模式为“5’-NCR—编码序列—NCR-3’”,基因组核酸两端NCR长度一般为几十至数百核苷酸(nt)。如狂犬病毒基因组-ssRNA的5’-NCR长70nt、3’-NCR长86nt;人乳头瘤病毒16型(HPV16)基因组dsDNA的5’-NCR长82nt、3’-NCR长749nt。大型病毒基因组核酸两端NCR较长,如单纯疱疹病毒1型(HSV-1)基因组dsDNA,其5’-NCR长512nt,3’-NCR长1260nt。
1. 末端NCR可含有病毒基因组复制与包装序列 疱疹病毒基因组可以看作是由UL和US两个亚基因组拼接而成的,因此,其基因组不但核酸两端有基因组的调控序列,在基因组核酸链中段也有基因组调控序列。如HSV-1基因组UL的5’端、US的5’端和3’端各有一段a序列(共3段),a序列内有病毒核酸的切割-包装信号(packaging/cleavage signal,pac)序列、直接重复序列(direct repetitive sequence,DR)和一些顺式调控序列等;而在US的5’端和3’端各有一段OriS序列、以及在UL中部的UL29与UL30之间有OriL序列,为病毒的自主复制序列(图1-8)。
人细小病毒B19的基因组ssDNA链两端各有一段相同的反向重复序列(inverted repeats,IR),以5’端为例,1→147核苷酸序列(IR-A)与365→219核苷酸序列(IR-a)是反向重复序列,中间间隔71nt,IR-A与IR-a通过碱基配对(回文结构)可形成“发夹”结构(hairpin structure)(图1-9)。腺病毒、腺病毒相关病毒等多种病毒均具有这种基因组末端发夹结构,在基因组复制中起重要作用。
人甲型流感病毒是多分基因组(有8个-ssRNA节段),大多数甲型流感病毒的每一条-ssRNA两个末端都各有一个保守序列,如人甲型流
感病毒(H3N2)的所有RNA节段的末端序列均有一段保守序列:5’端为AGUAGAAACAAGG(13nt)、3’端为UCGUUUUCGUCC(12nt)。这一末端保守序列通过碱基配对使-ssRNA两末端结合成锅柄状(panhandle)结构,结合核蛋白(NP)后形成所谓“拔塞钻”(corkscrew)核衣壳结构(图1-10)。该末端序列还结合有病毒的RNA多聚酶(P蛋白),因此它们还是基因的启动子序列(promotorsequences),在基因“无帽复制”时可以改变配对方式以起到核酸复
制引物序列的作用,对病毒基因组复制与转录均非常重要。
2. 末端NCR(尤其是5’端)含有顺式转录调控序列 HIV-1基因组5’和3’两端均有长末端重复(long terminal repeats,LTR)序列,每个LTR长度大约超过600nt,分为U3、R3和U5区。内
含启动子(promotor)、增强子(enhancer)、负调控元件(NRE)、组胺转录因子的结合位点、反式作用应答序列(transacting response sequence,tar)等多种顺式调控序列,对病毒基因组复制及转录具有极重要的调控作用。
+ssRNA病毒基因组核酸可直接用作mRNA,因此其基因组RNA结构最好与真核生物mRNA比较近似,以利于病毒基因组生存与复制。如披膜病毒科、冠状病毒科、逆转录病毒科和黄病毒科的部分病毒,它们的基因组+ssRNA常类似于真核细胞mRNA,也有5’-cap结构“m7GpppGmp”和3’-poly(A)尾巴。但有些+ssRNA病毒(如小RNA病毒科、黄病毒科的HCV和瘟病毒等)的RNA的5’端没有帽结构,但均具有一段长几百核苷酸的5’端非编码区(UTR)。5’-UTR为三叶草状的复杂“茎-环”二级结构,其位于AUG起
始密码前有一段“茎-环”结构,由于能高效结合真核细胞翻译起始因子,进而与核糖体结合,因此称之为内部核糖体进入部位(internal ribosome entry site,IRES)(图1-11)。IRES一方面有利于病毒竞争核糖体,另一方面使得这些病毒的肽链翻译模式有别于宿主细胞5’- m7cap-mRNA的翻译模式,
病毒可以关闭细胞肽链合成而不影响自身肽链合成。
甲病毒属的辛德比斯病毒(Sindbis virus, SV)最会取巧,其编码结构蛋白的亚基因组5’NCR有两种
核糖体结合结构:在5’端起始处有连接于缺少甲基化腺苷酸(A)的帽结构(m7GpppAp),这种帽结构可与真核细胞核糖体的高磷酸化eIF2α蛋白结合,启动结构蛋白肽链翻译;在帽结构后面靠近起始密码子处还有一个类似与IRES的茎环结构,在没有eIF2α蛋白时可直接结合核糖体,启动肽链翻译(图1-12)。左右逢源,有没有eIF2α蛋白均可翻译肽链。
3. 基因组没有“专职”末端NCR HBV基因组含有4个ORF,全部分布在-DNA链上。在这条-DNA链上,全部核苷酸序列都是编码序列,没有“专职”NCR序列。但实际上-DNA链上分布有多个顺式调控序列,如ORFs的启动子SP1和SP2、增强子Ⅰ和Ⅱ、糖皮质激素应答元件(glucocorticoid responsive element,GRE)等,这些调控序列均交错重叠分布在各ORF内(见图1-13实线所示)。虽然HBV的基因组核酸-DNA链上没有NCR序列,但HBV基因组在转录前基因组时,RNA多聚酶绕着环形-DNA链模板“跑”过了头,合成一条长度为3.5kb的前基因组+ssRNA(见图1-13虚线所示),在其两端多出了几百个核苷酸的“专职”NCR序列。这一段“专职”NCR序列对HBV子代病毒核酸复制非常重要,其5’端有ε包装信号序列和引物模板序列(图1-13),3’端有引物结合序列和逆转录起始序列等。
但有些病毒基因组核酸两端NCR非常短,如人甲型流感病毒A/Texas/JMS378/2009(H1N1) 毒株的8个核酸片段均变异失去了5’-13nt和3’-12nt的保守序列,而且其第1、2、3、6、7、8等6个片段5’均只剩下1~6nt;而A/Korea/426/68(H2N2)毒株的第5和6核酸片段甚至两端均没有NCR。如此短的NCR是不可能有调控序列的,因此甲型流感病毒基因表达的调控机制仍有许多不清楚之处。
(二)病毒基因组的基因编码区
多数病毒基因组的基因编码区会将功能类似的编码基因序列分区排列。如小RNA病毒科、黄病毒科的病毒,其基因组核酸5’端为结构蛋白基因区,而3’端为非结构蛋白(non structural proteins,NSP)基因区。腺病毒科、乳头瘤病毒科、披膜病毒科、星状病毒科、成套病毒目、杯状病毒科的病毒正相反,其基因组核酸5’端为NSP基因区,而3’端为结构蛋白基因区。有些病毒如副粘病毒科的部分病毒、狂犬病毒等未发现明显的分区,但据研究,部分副粘病毒(如麻疹病毒、腮腺炎病毒等)基因组3’端第2个ORF(P/(C)/V),在转录mRNA时,可通过不同
的编辑方式,或生成可翻译合成结构蛋白P蛋白的mRNA,或生成可翻译合成非结构蛋白C或V蛋白的mRNA(图1-14)。
病毒基因组的基因编码区大约有三种类型:
1. 病毒基因组的编码区为一个ORF 在部分单分基因组脊椎动物病毒中,病毒的编码基因都是连续性序列,即在编码序列(外显子,exon)中间没有内含子(intron)序列。如小RNA病毒科、黄病毒科、逆转录病毒科、杯状病毒科、细小病毒科等科属的病毒基因组编码区是连续的编码基因序列,基因之间没有非编码间隔序列。如黄病毒科丙型肝炎病毒1型(HCV-1)基因组+ssRNA的5’-NCR长341nt,3’-NCR长269nt,中段是长9036nt的10个基因的连续编码序列。这个连续编码序列是一个转录单位,即一个ORF,可一次性翻译合成一条长3011个氨基酸残基(amino acid residue,aa)的前体
肽链,再通过蛋白酶裂解成10条肽链(图1-15)。
2. 病毒基因组的编码区有非编码间隔序列(spacing sequence) 还有一部分单分基因组脊椎动物病毒的编码基因区含有非编码间隔序列,非编码间隔序列又有两种
分布类型。
(1)基因间非编码间隔序列 如疱疹病毒科、腺病毒科、副粘病毒科(图1-14)、弹状病毒科的病毒,每两个基因之间一般都有非编码间隔序列。有些分为非结构蛋白编码区和结构蛋白编码区的病毒基因组如披膜病毒科、乳头瘤病毒科等,在这两个编码区之间有非编码间隔序列。
dsDNA病毒的两条DNA链上都有编码基因。因此,在一条DNA链上两个基因之间的间隔序列,在另一条DNA链上与其互补的对应区段常常是编码序列,呈现一种在两条链上基因交错分布的现象,而且这些交错分布基因的转录方向常常相反。如在HSV-1的+DNA链上,UL3基因编码序列为10957nt→ 11664nt,UL6基因编码序列为15130nt→17160nt,两基因间隔3465个核苷酸(11665nt~15129nt);而在其反义-DNA链上与这段间隔序列对应的区段有UL4基因(编码序列为11823nt←12422nt)和UL5基因(编码序列为12483nt←15131nt)。(注:箭头所指基因编码序列方向5’ →3’)。
有些病毒基因间的非编码序列与真核细胞生物基因的侧翼序列很相似,如疱疹病毒HSV-1的RL2基因(2082nt~5698nt),其5’端的非编码序列有TATA盒(2086tataag2091),相隔21nt开始转录mRNA(2113nt→5698nt),肽链编码序列(2361nt→5489nt)含有3个外显子(2261nt→2317nt,3083nt→3749nt,3886→5489nt),在3’末端有mRNA加poly(A)尾的信号序列(5676aataaa5681)。但有趣的是,HSV-1的US区段的全部(除US12基因外)基因都是这种典型基因结构,但UL区段的全部基因的5’端非编码区都缺少TATA盒序列,只在3’末端有加poly(A)尾信号序列。
(2)基因内非编码间隔序列(内含子) 有些病毒基因结构与真核细胞的基因相似,基因是不连续的,有所谓外显子和内含子序列。如上所述,HSV-1的RL2基因有3个外显子(2261nt→2317nt,3083nt→3749nt,3886→5489nt),2个内含子序列分别长765bp和136bp;EB病毒的潜伏期膜蛋白2A(latency membrane protein,LMP-2A)甚至有8个外显子(167587→167942,58→272,360→458,540→788,871→951,1026→1196,1280→1495,1574→1680)。
在少数单链核酸病毒的基因组中也存在不连续基因,而且某一个基因的内含子序列,可以是另一个基因的编码序列。如HIV-1的tat基因(5377nt→5591nt,7925nt→7970nt)和rev基因(5516nt→5591nt,7925nt→8199nt)各由2个外显子编码,有趣的是,这两个基因竟然共用一个内含子(5592nt~7924nt),而且这一内含子序列又是其他基因的编码序列,即编码完整的vpu基因(5608nt→5856nt)和env基因的大部(5771nt→8341nt)。
dsDNA病毒一条核酸链上的某个基因的内含子序列,可以作为其反义链上其它基因的编码序列。如HSV-1的UL15基因有2个外显子(29020nt→30048nt,33635nt→34813nt),中间有一个长为3586bp的内含子(30049nt~33634nt);由于该内含子序列很长,在与其对应的反义DNA链区段有UL16(30174nt←31295nt)和UL17(31386nt←33497nt)两个基因。
3. 病毒的重叠基因 由于病毒的基因组容量很小,为充分节约利用其核酸资源,有些病毒(包括某些大型病毒)基因组中存在两个甚至多个ORF互相重叠编码的现象。重叠基因是1977年Sanger在研究大肠杆菌噬菌体ΦX174时发现的,但这种现象在脊椎动物病毒中也常见,如HBV、HIV、HPV等病毒的基因组都有典型的重叠基因。
基因重叠指同一段核酸序列能以交错读码的方式转录两条甚至多条不同的mRNA,翻译合成两种甚至多种肽链。重叠基因有以下两种情况:
(1)基因套叠 一个ORF序列全部在另一个ORF序列内,即一个ORF的起始密码子和终止密码子均在另一个ORF序列内,如HBV的ORFs序列全部在ORFp序列内。
(2)基因交错重叠 一个ORF序列与另一个ORF序列只有部分重叠,即前一个ORF的终止码在后一个ORF序列内,而后一个ORF的起始码在前一个ORF序列内。
如图1-16所示的HBV基因组反义+DNA第1800nt~1843nt序列,当核糖体从1800TGC1802(密码子UGC)位开始读码至1833GCC1835,依次翻译成HBx肽链的Cys143(半胱氨酸)至Ala154(丙氨酸)序列,肽链翻译至1836TAA1838(终止密码子UAA)停止。而ORFc的读码是从1814ATG1816(起始密码子AUG)开始的,由于与ORFx的读码方式错开了2nt,因此当核糖体读至ORFx终止码1836TAA1838处时,终止码拆开读为CT1836A和1838ATC,分别为leu8(亮氨酸CUA)和Ile9(异亮氨酸AUC)的密码子,使核糖体继续向前翻译肽链。
重叠基因结构可利用较少核酸资源携带较多的遗传信息。以HBV(adr亚型)为例,其基因组-DNA链长度只有3215nt,有4个ORF。其中ORFp长度为2532nt,ORFs长度为1203nt,ORFc长度为645nt,ORFx长度为439nt。如果这些ORF依次排列的话,HBV的-DNA链至少应长4839nt,比现基因组长约1624nt(约占现基因组的50.5%)。这表示HBV以约只占理论基因组长度66.44%的核酸序列完成了基因组全部编码任务,节约的核酸资源非常可观。
转载本文请联系原作者获取授权,同时请注明本文来自刘琥琥科学网博客。
链接地址:https://wap.sciencenet.cn/blog-809009-695729.html?mobile=1
收藏