非编码RNA分类的深度学习方法比较与基准
随着tRNA(转运RNA)和rRNA(核糖体RNA)的发现,功能相似的非编码RNA (ncRNA)类别的定义始于20世纪50年代。随后描述了参与细胞维持的其他ncRNA类别,但研究仍然主要集中在蛋白质或蛋白质编码基因上。直到2000年,当人类基因组计划等努力强调98%的基因组是非编码的时候,人们的注意力开始转向ncRNA。描述了具有调控功能的新型ncRNA,如miRNA (microRNA)或lncRNA (long ncRNA)。研究表明,ncRNA参与多种生物过程和疾病,强调了其作为生物标志物和治疗靶点的潜力,因此研究其功能非常重要。了解它们的确切功能需要具体的实验研究。为了将这些资源集中在感兴趣的ncRNA上,可以在大规模的计算中完成功能表征,进而聚集具有相同功能的ncRNA。这通常在两个层次上完成。第一类是ncRNA家族,它们具有当死的特异性,代表了具有相同功能、相似结构基序和序列同源性的ncRNA。第二种是ncRNA类,范围更广。它们也代表了共享功能和结构基序的ncRNA,但序列同源性不再是一个限制。在最近的综述中,Creux等人专注于ncRNA类预测。尽管如此,值得注意的是,ncRNA家族预测也引起了社区的兴趣,并在多个研究中得到了解决。
多年来,许多ncRNA类别已经被确定。通常根据它们是否执行“管家”功能(即它们是否参与细胞活性)或它们是否具有“调控”功能(即它们在表观遗传、转录或后转录水平上调控基因表达)来分离它们。图1表示了这两种类型的功能,并命名了一些通常包含在ncRNA分类问题中的ncRNA类。这些类中的每一个都与特定的功能相关联。例如,tRNA具有独特的三叶草状结构,其功能是将氨基酸携带到核糖体进行蛋白质合成。miRNA的长度为20~26nt,其前体具有发夹结构,并结合其他RNA(主要是mRNA)来调控基因表达。随着ncRNA的新功能被发现,新的类别仍然可以被发现。直到今天,还没有固定的ncRNA类别。lncRNA尤其缺乏定义。属于这一类RNA是完全不同的,可以有多种功能。它们大多由长度超过200nt和在基因组中的位置(反义,内含子等)来定义。由于缺乏精确性,ncRNA的分类问题往往集中在小ncRNA (sncRNA)的分类上。
图1 ncRNA分类。非编码RNA的功能可以分为管家功能(绿色)和调控功能(紫色)。类可以根据描述的级别进行细分。所代表的类是文献中经常提到的例子,或者是数据集中感兴趣的例子
自2000年以来,已经提出了几种工具来预测已知的ncRNA类别,主要基于它们的序列、二级结构或表达数据。由于可以同时研究多个ncRNA,因此使用计算资源可以比实验方法更快地获得结果。第一种方法主要依赖于对齐算法和标准机器学习。近年来,深度学习(DL)已被应用于ncRNA分类,显示出更高的性能和对更大的ncRNA数据集进行分类的能力。DL现在是该领域流行的方法。术语“ncRNA分类”在文献中有不同的含义。它有时用于预测特定的ncRNA类别。这个问题在综述中已经被广泛报道。也可以指多类分类,将一组ncRNA作为输入,并将每个ncRNA关联到一个ncRNA类。
文献缺乏最近的多类ncRNA分类器的比较。在2017年发表的一篇文章中,介绍了早期的ncRNA分类方法。只有一篇发表于2019年的文章涵盖了使用深度学习进行多类ncRNA分类。作者们统计了12个最先进的基于DL的ncRNA分类器。
缺乏审查是该领域的一个问题,因为出版物中提出的不同工具的性能比较是不可靠的。实际上,方法之间的比较通常不需要重新执行工具,而只是使用先前出版物中公布的分值。在这些情况下,结果并不总是得到与可比的实验方案。此外,用于评估的主数据集存在数据泄漏问题。因此,报告的表现是有偏差的。
在本综述,作者们建议通过对多类ncRNA分类的不同DL方法进行详尽的回顾来填补文献中的空白。作者们描述了深度学习架构中的选择,并解释了用于评估的数据集之间的差异。此外,对当前工具之间的性能进行了公平的比较,评估全局和每个类的预测结果。这些工具具有识别非功能序列和忽略序列边界噪声的能力。作者们还通过测量计算时间和二氧化碳排放量来评估资源强度。
在本文中,作者们回顾了过去七年来基于DL的ncRNA分类的关键进展。作者们首先检查了实现的不同架构,注意到大多数工具都是基于CNN和/或RNN构建的。作者们还提供了最近用于ncRNA分类的数据集的详细比较。
在三个数据集上对最先进的工具进行了广泛的基准测试。在评估的工具中,nrna -deep、MFPred和RNAGCN脱颖而出,前两个工具利用序列,后者利用二级结构。这三种工具显示了对噪声的鲁棒性。特别是,ncrna-deep在性能和速度方面一直优于其他程序。基准测试还强调了无法再训练的工具的重大缺陷,因为它们在新数据集上表现不佳。这一发现强调了允许用户重新训练模型的重要性。
最后,作者们对ncRNA分类的未来提出了建议。虽然基于二级结构的方法在评估中表现不佳,但随着更精确的结构预测工具的发展,它们的潜力将得到显著增强。作者们强调了简单序列表示的有效性,并鼓励集成更多样化的数据类型,因为这可以提高性能并提供新的见解。此外,建议结合零值学习或弃权分类等技术可能对该领域有益。最后,作者们强调了开发工具的重要性,这些工具可以在新数据集上进行再训练,确保它们的适应性和对不断发展的数据的持续关联性。
参考文献
[1] Creux C, Zehraoui F, Radvanyi F, Tahi F. Comparison and benchmark of deep learning methods for non-coding RNA classification. PLoS Comput Biol. 2024 Sep 12;20(9):e1012446. doi: 10.1371/journal.pcbi.1012446.
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
转载本文请联系原作者获取授权,同时请注明本文来自张俊鹏科学网博客。
链接地址:https://wap.sciencenet.cn/blog-571917-1455506.html?mobile=1
收藏