博文

BMC Biology：香港城市大学孙燕妮组发表高准确度预测病毒宿主的工具

已有 2584 次阅读 2022-1-27 18:42 |个人分类:作者解读|系统分类:科研笔记

使用基于 GCN 的半监督学习预测原核病毒的宿主

Predicting the hosts of prokaryotic viruses using GCN-based semi-supervised learning

BMC Biology [IF: 7.431]

DOI：https://doi.org/10.1186/s12915-021-01180-4

发表日期：2021-11-24

第一作者: Jiayu SHANG(商家煜)¹

通讯作者：Yanni SUN(孙燕妮)(yannisun@cityu.edu.hk)¹

主要单位：

¹香港城市大学(Electrical Engineering, City University of Hong Kong, Hong Kong, China)

摘要

原核病毒(包括噬菌体和古菌病毒)是生物圈中最丰富、最多样的生物实体。为了了解原核病毒在各种生态系统中的调节作用，并利用噬菌体在治疗中治愈耐药菌的潜力，人们需要了解更多的病毒-宿主关系的知识。高通量测序及其在微生物组中的应用为预测病毒的宿主提供了新的机会。然而，宿主的预测面临两个主要挑战。首先是已知的病毒宿主关系非常有限。第二，虽然原核病毒和宿主之间的序列相似性被用作宿主预测的主要特征，但在许多情况下，这种序列比对结果要么是缺失的，要么是模糊的。因此，还需要进一步提高宿主预测的准确性。

在这项工作中，我们提出了一个半监督学习模型，命名为HostG，用于对新原核病毒进行宿主预测。我们利用病毒蛋白质相似性和病毒与宿主DNA序列相似性构建知识图。然后利用图卷积网络(graph convolutional network, GCN)同时对已知宿主和未知宿主的病毒进行训练，以提高模型的感受域(receptive field)和学习能力。在GCN训练过程中，我们最小化了预期校准误差(Expected Calibration Error， ECE)，以确保预测的可信度。我们在模拟和真实的测序数据上对HostG进行了测试，并将其性能与其他专为病毒宿主分类设计的最先进的方法(VHM-net、WIsH、PHP、HoPhage、RaFAH、vHULK和VPF-Class)进行了比较。

HostG的结果优于其他已知的方法，证明了使用基于GCN的半监督学习方法的有效性。同时，HostG的另一个特殊优势是它能够从新的分类群中预测宿主。

背景

原核病毒(以下简称病毒)在微生物学中发挥着重要作用。它们通过持续的溶菌行为限制宿主的数量来调节生态系统。由于病原菌对抗生素的耐药性的威胁，人们重新燃起了使用噬菌体作为治疗细菌感染的替代策略的兴趣。利用噬菌体治疗细菌感染的一个基本步骤是确定噬菌体的宿主，这将提供使用噬菌体作为潜在抗生素的关键知识。除了噬菌体疗法，鉴定新病毒的宿主还有其他应用，如基因转移搜索、疾病诊断和新型细菌检测。

然而，已知的病毒与宿主的对应关系只是冰山一角。测序得到的原核病毒和已知的病毒-宿主关系数量之间的差距正在迅速扩大。实验方法，如单细胞病毒标记，可以直接从生物学实验中确定病毒-宿主关系。然而，这些方法不仅昂贵而且耗时，更糟糕的是，由于实验室中能够成功培养的微生物宿主不到1%，所以很少能检测到病毒-宿主的直接关系。因此，急需一种直接对预测宿主的计算方法。

病毒-宿主关系预测有两个主要挑战。首先，已知的病毒-宿主关系是有限的。VHM数据集是使用最广泛的数据集之一，它包含1426个病毒，仅为RefSeq中已知原核病毒的37%。PHP的作者从RefSeq中添加了到2020年的病毒-宿主关系。两个数据集总共包含大约2000个已知的病毒-宿主关系。考虑到原核病毒是重新作为最丰富的生物实体，与未知的病毒-宿主关系相比，已知的病毒-宿主关系的数量仍然非常有限。第二，虽然病毒和原核生物之间的序列相似性已被用作宿主鉴定的一个重要特征，但并非所有病毒都与其宿主基因组具有显著的序列相似性。如，在VHM数据集中，约54%的病毒与宿主基因组不匹配。因此，序列相似度搜索无法对这些病毒进行任何预测。

在这项工作中，我们提出了一种新的方法HostG，用以预测病毒的宿主标签(从门到属)。虽然宿主分类预测可以在种级甚至株级进行，但考虑到广谱噬菌体(可以感染多种菌株的噬菌体)和已知病毒-宿主关系的信息缺乏，为了提供更可靠的预测结果，我们将重点预测宿主从门到属的分类排序。我们的方法的关键组成部分是半监督学习模型GCN。GCN可以利用知识图谱灵活地对病毒和原核生物之间的关系进行建模，并利用知识图谱的节点特征和拓扑结构进行卷积。GCN中的每个节点都可以有一个不同的卷积核，这取决于它与其他节点的连接。每个节点利用自己的特征和相邻节点的组合特征进行卷积。因此，信息可以在未知标签的样本/节点和未知标签的样本/节点之间传递。在生物数据分析中，存在着基因共享网络、疾病-药物关系图、疾病-基因关系图等拓扑结构。GCN利用这些关系已经有许多成功的应用。

在这项工作中，我们提出了一种新的方法HostG，用以预测病毒的宿主标签(从门到属)。虽然宿主分类预测可以在种级甚至株级进行，但考虑到广谱噬菌体(可以感染多种菌株的噬菌体)和已知病毒-宿主关系的信息缺乏，为了提供更可靠的预测结果，我们将重点预测宿主从门到属的分类排序。我们的方法的关键组成部分是半监督学习模型GCN。GCN可以利用知识图谱灵活地对病毒和原核生物之间的关系进行建模，并利用知识图谱的节点特征和拓扑结构进行卷积。GCN中的每个节点都可以有一个不同的卷积核，这取决于它与其他节点的连接。每个节点利用自己的特征和相邻节点的组合特征进行卷积。因此，信息可以在未知标签的样本/节点和未知标签的样本/节点之间传递。在生物数据分析中，存在着基因共享网络、疾病-药物关系图、疾病-基因关系图等拓扑结构。GCN利用这些关系已经有许多成功的应用。

结果

在RefSeq数据上的测试性能

我们将已知的病毒-宿主关系按照病毒在RefSeq 数据库上发布时间，分成训练集和测试集。2015年之前发布的病毒以及其对应的宿主关系用来训练HostG，2015年之后病毒则用以测试。我们将我们的工具与几个最先进的工具进行了比较:WIsH[22]、PHP[12]、HoPhage[24]、VPF-Class[21]、VHM-net[14]、vHULK[25]和RaFAH[23]。我们还记录了BLASTN的输出，以显示基于alignment的工具的性能。为了将HostG[41]与其他工具进行比较，我们遵循了他们的实验设计，也使用了相同的指标：预测率(prediction rate)和准确率(accuracy)。预测率表示测试集中病毒被工具预测的数量。准确率则表示有多少个病毒-宿主的关系被正确的预测。

我们在图1中比较了HostG与其他病毒宿主分类工具的性能。为了保证公平的对比，我们使用我们的训练数据对vHULK和RaFAH进行了再训练。由于其他工具未能提供重新训练的脚本或已经使用与我们相似的训练数据进行训练，我们直接使用这些工具提供的预训练模型进行测试。对于基于alignment的方法VPF-Class，我们直接使用他们的数据库，并在测试数据集上运行它。图1显示了HostG在不同的层级标签(从门到属)中优于其他工具。随着层级的增加，所有工具的性能都有所提高。这是因为较高的分类等级有更多的关系数据需要学习。此外，等级越高的分类群组的特征也越明显。结果表明，HostG具有较高的预测精度和预测率。尽管图1中BLASTN的性能优于一些基于学习的模型，但BLASTN只能返回测试集中65.5%的病毒预测。所有其他方法都能预测90%以上病毒的宿主。

图1 测试集上从属到门的宿主预测准确率

X轴：物种分类排名；Y轴：准确率。

然后，我们进一步研究了模型对于缺乏与原核生物基因组序列相似性(alignment)的病毒的宿主预测性能。在本实验中，只使用没有BLASTN比对结果的病毒作为测试序列。图2中的结果显示，即使在病毒和宿主之间没有统计上显著的BLASTN alignment 结果，HostG仍然呈现出最好的性能。

图2 非BLASTN比对结果的病毒的宿主预测精度

X轴：物种分类排名；Y轴：准确率。

ECE对模型的提升以及在短序列上的测试性能

我们结合“预期校准误差 (ECE)”和L2来更新GCN中的参数。我们将SoftMax值划分为10个区段，因此每个区段覆盖一个大小为0.1的区域。图3显示了在训练过程中加入ECE之前(图3A)和之后(图3B)的结果。在目标函数中加入ECE后，置信度较高的bin (SoftMax值)具有较高的准确性。

图3 目水平添加ECE损失之前(A)和之后(B)的准确性与置信度(SoftMax值)

ECE 从 13.16 降至 2.61。 X 轴：置信度(SoftMax 值)；Y轴：准确率。

然后我们进一步展示ECE的实用性。我们首先根据SoftMax值(或其他工具提供的score)对宿主的预测结果进行排序，然后在图4中显示不同工具在属级的准确率和预测率的比较。如预期的那样，准确率和预测率随着预测率的增加而下降。同时，图4表明，在相同的预测率下，HostG比现有的大多数工具都能实现更高的宿主预测精度。此外，当SoftMax阈值分别为0.88、0.89和0.94时，HostG在目、科和属级别上的准确率均为100%。

图4 不同工具在宿主属级的预测的准确率和预测率的比较

直线上的每个数据点对应不同的置信阈值。X 轴：预测率；Y轴：准确率。

之前的实验是使用整个基因组进行的，为了进一步的验证模型的效果，我们将研究输入不同长度的短序列(contigs)来检验序列长度如何影响预测性能。首先，我们从测试数据集中的病毒基因组以三种不同长度(3kbp、5kbp、10kbp)采样短序列。然后我们运行所有的工具并记录预测结果。如图5所示，虽然所有方法的性能都随着短序列长度的减小而下降，但HostG在不同长度的序列上仍优于目前最先进的方法。

图5 不同工具在短重叠群上的病毒宿主预测效果对比

X 轴：输入的重叠群的长度； Y轴：准确率。

同时，我们使用SoftMax 阈值的形式来提升预测的准确性。图6显示了SoftMax阈值大于0.8时HostG在短序列(contigs)的分类性能。虽然有预测率的牺牲，但对于短的contigs，预测标签变得更准确。结果表明，当用户指定严格的SoftMax阈值时，HostG对于短序列的预测结果仍然是可靠的。

图6 SoftMax阈值在0.8以上的短重叠群的预测性能线图

线图：重叠群的准确性与长度；条形图：预测率与重叠群长度的关系。

扩展模型：可预测其他新的宿主

为了检验HostG预测新类群寄主的性能，我们设计了两个实验，利用通过单细胞病毒标记获得的139对新病毒-宿主关系。在此数据集中，与VHM数据集中的1426个病毒-宿主关系相比，这139个关系中宿主基因组的属标签是新的。因此，在这些新标签上缺乏训练样本会妨碍监督学习模型(如CNN)预测139种新病毒的正确标签。但是，HostG可以通过在知识图谱中添加相应的节点，方便地包含来自新分类标签(如新的目，科，属)。

我们考虑了两个可以受益于标签扩展的场景。在图7A中，由于用户缺乏某些病毒的宿主的具体信息，因此，对NCBI基因组数据库中(2020年前)获得的60,105个原核基因组添加节点，扩展知识图。在60k+基因组中，86个基因组具有与真正的宿主基因组相同的属标签。因此，图的拓展方式可以将真实宿主的属标签整合到原始知识图谱中。为了增加难度，我们还去掉了真实宿主的基因组，以检验模型在不包含真实宿主基因组的情况下是否能够预测宿主的属标签。图7B侧重于第二种场景，我们假设用户具备先验知识，可以获取数据中存在真实的宿主基因组，例如从相同类型的环境样本组装而成的基因组。因此，由单细胞标记数据集给出的289个原核基因组的节点被添加到图中。

图7 为新的宿主标签扩展知识图的两种方法

a A图扩展，添加60,105个原核基因组和139个通过单细胞病毒标记获得的病毒；
b B图扩展，从单细胞标记数据集中添加289个原核基因组和139个病毒。

图8显示了HostG在两种扩展知识图上进行训练的结果。因为PHP支持对标签扩展进行模型再培训，即使在训练时不包含宿主物种的标签，我们将与PHP的预测结果进行比较。如图8所示，扩展版的HostG在两种情况下都可以达到更高的精度。正如预期的那样，当使用实际的宿主基因组作为标记序列时，HostG和PHP都有更好的性能。当实际的宿主基因组不在知识图中时，HostG仍然可以利用同一类群(如属)的原核生物进行更可靠的预测。

图8 单细胞病毒标签数据集上的预测性能

“-86”:在图7A所示的扩展-86上训练和预测；“-289”:在图7B所示的扩展-289上训练和预测。

我们还记录了HostG的SoftMax值最高20%和PHP得分最高20%的结果。如图9所示，施加阈值具有更好的准确性。

图9 具有最高20% SoftMax值的重叠群的预测准确度

X 轴：物种分类排名；Y轴：准确率。

讨论

实验表明，基于序列相似性(alignment)的方法，性能在很大程度上依赖于参考数据库。某些不可靠的alignment或缺失与宿主基因组共享区域会降低分类精度和预测率。现有的的工具，如PHP，在属和科等分类等级较低的情况下，无法实现良好的性能。当病毒序列(contigs)很短时，结果会变得更糟。在这项工作中，我们证明了HostG优于最先进的宿主预测方法。我们不只是使用病毒-宿主对的DNA模式，还考虑病毒之间的蛋白质相似性来构建知识图。然后，利用半监督学习方法GCN，使HostG能够利用知识图中已知标签的节点和未知标签节点的特征，预测病毒的宿主。为了保证HostG的可靠性，我们使用ECE来校准预测的置信度，用户可以根据自己的需要设置阈值，从而达到更高的准确性。最后，我们证明了HostG可以通过知识图的扩展能力预测新的分类标签。这项工作将有助于识别宏基因组数据中的病毒-宿主相互作用，并将扩展我们对新识别病毒的理解。

作者简介

第一作者：商家煜，香港城市大学博士研究生，主要研究方向是深度学习在宏基因组中的应用等。目前发表文章有1篇Briefings in Bioinformatics、1篇 BMC Biology、1篇BMC Genomics等，并有一篇论文被ISMB/ECCB 2021收录。

通讯作者：孙燕妮，香港城市大学电机工程系(Electrical Engineering)副教授，博士生导师。在美国圣路易斯的华盛顿大学(Washington University in Saint Louis)取得计算机系博士学位后在密西根州立大学计算机系担任助理教授和副教授(with tenure)。2018年加入香港城市大学。主要研究方向是生物信息学，序列分析，宏基因组学，和病毒基因组学。具体的研究课题，发表的论文，以及实验室的位置请参加作者个人主页：https://yannisun.github.io/

Reference

Jiayu Shang,Yanni Sun.Predicting the hosts of prokaryotic viruses using GCN-based semi-supervised learning. BMC Biology,(2021) 19:250. https://doi.org/10.1186/s12915-021-01180-4

写在后面

为鼓励读者交流、快速解决科研困难，我们建立了“宏基因组”专业讨论群，目前己有国内外5000+ 一线科研人员加入。参与讨论，获得专业解答，欢迎分享此文至朋友圈，并扫码加主编好友带你入群，务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助，首先阅读《如何优雅的提问》学习解决问题思路，仍末解决群内讨论，问题不私聊，帮助同行。

学习扩增子、宏基因组科研思路和分析实战，关注“宏基因组”

点击阅读原文，跳转最新文章目录阅读
https://mp.weixin.qq.com/s/5jQspEvH5_4Xmart22gjMA

转载本文请联系原作者获取授权，同时请注明本文来自刘永鑫科学网博客。
链接地址：https://wap.sciencenet.cn/blog-3334560-1322965.html

上一篇：Nature子刊：来自人类肠道菌群的189,680种DNA病毒基因组集
下一篇：美国北卡教堂山分校Jeff Dangl组植物微生物组博士后招聘(植物微生物互作领域第一高引学者)

收藏 IP: 59.109.153.*| 热度|

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

数据加载中...

返回顶部

刘永鑫

扫一扫，分享此博文

woodcorpse的个人博客分享 http://blog.sciencenet.cn/u/woodcorpse

博文

BMC Biology：香港城市大学孙燕妮组发表高准确度预测病毒宿主的工具

使用基于 GCN 的半监督学习预测原核病毒的宿主

摘要

背景