张俊鹏
非编码RNA分类的深度学习方法比较与基准
2024-10-16 09:16
阅读:840

非编码RNA分类的深度学习方法比较与基准

随着tRNA(转运RNA)rRNA(核糖体RNA)的发现,功能相似的非编码RNA (ncRNA)类别的定义始于20世纪50年代。随后描述了参与细胞维持的其他ncRNA类别,但研究仍然主要集中在蛋白质或蛋白质编码基因上。直到2000年,当人类基因组计划等努力强调98%的基因组是非编码的时候,人们的注意力开始转向ncRNA。描述了具有调控功能的新型ncRNA,如miRNA (microRNA)lncRNA (long ncRNA)。研究表明,ncRNA参与多种生物过程和疾病,强调了其作为生物标志物和治疗靶点的潜力,因此研究其功能非常重要。了解它们的确切功能需要具体的实验研究。为了将这些资源集中在感兴趣的ncRNA上,可以在大规模的计算中完成功能表征,进而聚集具有相同功能的ncRNA。这通常在两个层次上完成。第一类是ncRNA家族,它们具有当死的特异性,代表了具有相同功能、相似结构基序和序列同源性的ncRNA。第二种是ncRNA类,范围更广。它们也代表了共享功能和结构基序的ncRNA,但序列同源性不再是一个限制。在最近的综述中,Creux等人专注于ncRNA类预测。尽管如此,值得注意的是,ncRNA家族预测也引起了社区的兴趣,并在多个研究中得到了解决。

多年来,许多ncRNA类别已经被确定。通常根据它们是否执行管家功能(即它们是否参与细胞活性)或它们是否具有调控功能(即它们在表观遗传、转录或后转录水平上调控基因表达)来分离它们。图1表示了这两种类型的功能,并命名了一些通常包含在ncRNA分类问题中的ncRNA类。这些类中的每一个都与特定的功能相关联。例如,tRNA具有独特的三叶草状结构,其功能是将氨基酸携带到核糖体进行蛋白质合成。miRNA的长度为20~26nt,其前体具有发夹结构,并结合其他RNA(主要是mRNA)来调控基因表达。随着ncRNA的新功能被发现,新的类别仍然可以被发现。直到今天,还没有固定的ncRNA类别。lncRNA尤其缺乏定义。属于这一类RNA是完全不同的,可以有多种功能。它们大多由长度超过200nt和在基因组中的位置(反义,内含子等)来定义。由于缺乏精确性,ncRNA的分类问题往往集中在小ncRNA (sncRNA)的分类上。

image.png

1 ncRNA分类。非编码RNA的功能可以分为管家功能(绿色)和调控功能(紫色)。类可以根据描述的级别进行细分。所代表的类是文献中经常提到的例子,或者是数据集中感兴趣的例子

2000年以来,已经提出了几种工具来预测已知的ncRNA类别,主要基于它们的序列、二级结构或表达数据。由于可以同时研究多个ncRNA,因此使用计算资源可以比实验方法更快地获得结果。第一种方法主要依赖于对齐算法和标准机器学习。近年来,深度学习(DL)已被应用于ncRNA分类,显示出更高的性能和对更大的ncRNA数据集进行分类的能力。DL现在是该领域流行的方法。术语“ncRNA分类在文献中有不同的含义。它有时用于预测特定的ncRNA类别。这个问题在综述中已经被广泛报道。也可以指多类分类,将一组ncRNA作为输入,并将每个ncRNA关联到一个ncRNA类。

文献缺乏最近的多类ncRNA分类器的比较。在2017年发表的一篇文章中,介绍了早期的ncRNA分类方法。只有一篇发表于2019年的文章涵盖了使用深度学习进行多类ncRNA分类。作者们统计了12个最先进的基于DLncRNA分类器。

缺乏审查是该领域的一个问题,因为出版物中提出的不同工具的性能比较是不可靠的。实际上,方法之间的比较通常不需要重新执行工具,而只是使用先前出版物中公布的分值。在这些情况下,结果并不总是得到与可比的实验方案。此外,用于评估的主数据集存在数据泄漏问题。因此,报告的表现是有偏差的。

在本综述,作者们建议通过对多类ncRNA分类的不同DL方法进行详尽的回顾来填补文献中的空白。作者们描述了深度学习架构中的选择,并解释了用于评估的数据集之间的差异。此外,对当前工具之间的性能进行了公平的比较,评估全局和每个类的预测结果。这些工具具有识别非功能序列和忽略序列边界噪声的能力。作者们还通过测量计算时间和二氧化碳排放量来评估资源强度。

在本文中,作者们回顾了过去七年来基于DLncRNA分类的关键进展。作者们首先检查了实现的不同架构,注意到大多数工具都是基于CNN/RNN构建的。作者们还提供了最近用于ncRNA分类的数据集的详细比较。

在三个数据集上对最先进的工具进行了广泛的基准测试。在评估的工具中,nrna -deepMFPredRNAGCN脱颖而出,前两个工具利用序列,后者利用二级结构。这三种工具显示了对噪声的鲁棒性。特别是,ncrna-deep在性能和速度方面一直优于其他程序。基准测试还强调了无法再训练的工具的重大缺陷,因为它们在新数据集上表现不佳。这一发现强调了允许用户重新训练模型的重要性。

最后,作者们对ncRNA分类的未来提出了建议。虽然基于二级结构的方法在评估中表现不佳,但随着更精确的结构预测工具的发展,它们的潜力将得到显著增强。作者们强调了简单序列表示的有效性,并鼓励集成更多样化的数据类型,因为这可以提高性能并提供新的见解。此外,建议结合零值学习或弃权分类等技术可能对该领域有益。最后,作者们强调了开发工具的重要性,这些工具可以在新数据集上进行再训练,确保它们的适应性和对不断发展的数据的持续关联性。

参考文献

[1] Creux C, Zehraoui F, Radvanyi F, Tahi F. Comparison and benchmark of deep learning methods for non-coding RNA classification. PLoS Comput Biol. 2024 Sep 12;20(9):e1012446. doi: 10.1371/journal.pcbi.1012446.

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

17. 实验验证型人类miRNA-mRNA互作数据库综述

18. 肿瘤免疫治疗基因表达资源:TIGER

19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA

20. 首个全面的耐药性信息景观:DRESIS

21. 生物信息资源平台:bio.tools

22. 研究资源识别门户:RRID

23. 包含细胞上下文信息的细胞互作数据库:CCIDB

24. HMDD 4.0miRNA-疾病实验验证关系数据库

25. LncRNADisease v3.0lncRNA-疾病关系数据库更新版

26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA

27. CellSTAR:单细胞转录基因组注释的综合资源

28. RMBase v3.0RNA修饰的景观、机制和功能

29. CancerProteome:破译癌症中蛋白质组景观资源

30. CROST:空间转录组综合数据库

31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具

32. Open-ST3D高分辨率空间转录组学

33. CanCellVar:人类癌症单细胞变异图谱数据库

34. dbCRAF:人类癌症中放射治疗反应调控知识图谱

35. DDID:饮食-药物相互作用综合资源可视化和分析

36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源

image.png

 

转载本文请联系原作者获取授权,同时请注明本文来自张俊鹏科学网博客。

链接地址:https://wap.sciencenet.cn/blog-571917-1455506.html?mobile=1

收藏

分享到:

当前推荐数:1
推荐人:
推荐到博客首页
网友评论0 条评论
确定删除指定的回复吗?
确定删除本博文吗?