zhangjunpeng的个人博客分享 http://blog.sciencenet.cn/u/zhangjunpeng

博文

组学基准的挑战和最佳实践

已有 457 次阅读 2024-2-5 09:00 |个人分类:科普|系统分类:科普集锦

组学基准的挑战和最佳实践

组学技术产生大量的高维数据,可以使用各种计算方法和算法进行分析,以提取有意义的生物信息。这些分析方法的准确性、灵敏度、特异性和效率可能因所问的具体问题和输入的数据而有很大差异。通过执行严格的基准测试——比较不同分析方法的性能——研究人员可以确保他们的分析是基于最有效的审查方法,从而提高准确性和可复制性。基准测试有几个目标,包括:在新的计算方法和工具在现实世界中使用之前验证它们的准确性和可靠性;为特定的分析任务确定最合适的方法;澄清不同方法之间的权衡,例如计算效率与准确性,以便选择最合适的方法;跟踪进展并确定需要改进的领域,以推动进一步的方法发展。除了比较分析之外,基准还可能建立一个障碍,任何方法都应该合理地需要清除这个障碍才能在实践中使用。 

在过去的25年里,随着成千上万的组学基准研究的发表,基准研究的实践逐渐成熟。在这一点上,基准测试的基本原则被建立和很好地描述了。此外,已经开发了特定结构域的基准指南,例如RNA二级结构预测、微生物组学和宏基因组学和变异召唤。有用于基准的模拟器和用于组织基准软件的基准测试。然而,与基准测试相关的挑战仍然存在,有些挑战比其他挑战更难解决。 

考虑三个越来越难以基准分析的例子:RNA测序(RNA-seq)比对、大量RNA-seq差异表达和单细胞RNA-seq分析。基准比对工作流程相对简单,因为人们可以简单地从已知的基因组位置(通常通过模拟)获得测序读数,并评估工具确定正确比对的接近程度。相比之下,从大量RNA-seq中评估差异表达的基准要复杂得多,因为它需要样品之间的实际变化,包括生物变化和基因表达的依赖性。由于RNA-seq工作流程中的这一步是序列比对的下游,它自然也继承了与比对基准相关的困难。最后,一些单细胞RNA-seq分析的基准必须考虑多种细胞类型、生物体内每种类型的细胞群体以及个体间细胞群体的差异。每增加一步,生成有意义的数据、评估结果、甚至具体说明什么是“真实情况”都变得更加困难。 

尽管组学方法对现代生物学很重要,但研究人员经常面临进行基准研究的必要性,由于其固有的局限性,这些研究无法达到预期的基准理想。除了这些不可避免的限制之外,对基准的文献回顾表明,研究经常受到可避免的疏忽的损害,这些疏忽可以通过标准化报告确定并随后纠正。在最近评论中,Brooks等人通过推荐所有关键决策的结构化报告来扩展既定的基准测试指导方针,以避免经常遇到的主要陷阱,并明确所有判断要求和简化。 

具体来说,Brooks等人提供了一个结构化的表格,用于报告大多数组学基准研究中常见的11种关键因素。更新和特定领域的模板(https://github.com/itmat/OmicsBenchmarkReport)将在GitHub上维护,鼓励社区贡献。这些报告旨在帮助基准测试者、审稿人和读者。可以相信,这样的报告不仅可以记录基准的固有和不可避免的局限性,以改善其解释,而且可以通过突出可避免的错误来改进基准,以便加以纠正。此外,Brooks等人还提供了在这些表格中报告的具有挑战性的决策导航的具体指导。最后,他们强调了最近的发展,包括新方法的基准测试和可用基准测试平台和软件数量的增加。 

下面简要介绍了一个典型的科学基准研究的十个步骤。 

1. 范围:准确描述正在评估的问题,包括任何管道的哪个阶段要进行基准测试,以及是否包括对任何下游(依赖)分析输出的影响。 

2. 工具:确定要评估的特定工具(通常是软件包)。这可能包括工具组合或整个管道。 

3. 基础真相:确定将与工具输出进行比较的参考或真实数据的形式。在没有确凿事实的情况下,这一步有时可以绕过。 

4. 建模的准确性:确定在基准测试过程中捕获的真实世界实验的哪些属性是重要的。还要确定在基准测试数据中有意不现实的任何属性。 

5. 结果分层:确定任何应该改变的相关因素,以评估其对性能的影响。 

6. 数据:创建、查找或组合数据以形成基准测试数据集,该数据集将在评估期间与步骤3中确定的任何参考基准真值一起用作所有工具的输入。确保基准测试数据集符合步骤4中确定的属性,并生成多个数据集,改变步骤5中确定的分层参数。 

7. 执行:将每个工具应用于步骤6中创建的基准测试数据集,并收集结果。如有必要,对每个工具重复使用不同的配置。 

8. 评估:通过一个或多个评估度量来度量工具的性能,这些度量将步骤7中生成的输出与数据集的真实值进行比较。如果没有基本事实,使用其他性能标准,跨重复或与其他独立分析进行比较。 

9. 解释:综合评估结果,为用户提供最佳工具、管道、配置或研究设计的建议。确定工具改进的未来方向。 

10. 维护:共享数据和软件。使将来容易复制。更新以反映新工具、新版本或该领域的其他发展。 

1可以帮助大家更直观的了解基准测试报告模板和基准测试管道。每个步骤的详细描述见文献[1]

image.png

1 基准测试报告模板和基准测试管道概述。a、报告模板组成部分的摘要,分为三大类:范围、数据和结果。11项中的每一项都要求基准提供详细的相关列表(工具、参数等)和明确的判断要求和简化假设的文档。这样做的目的是揭示常见的缺陷,然后在可能的情况下解决这些缺陷,并透明地记录这些缺陷。b-d,典型的组学计算方法包括一个由几个阶段组成的流水线,尽管基准研究可能调查一个简化或修改的流水线(虚线灰框)。基准测试者必须确定管道的哪些阶段将被直接基准测试。然后,所有其他阶段要么从基准测试中省略,要么被固定为只有一个或几个配置。考虑以下管道基准测试方案。b、评估整个流水线的最终输出。固定阶段程序的选择影响基准分析的结果。c、评估部分管道的最终输出。在实验中,被忽略的阶段仍然需要被认为是误差或偏差的来源,必须在基准数据中反映出来,才能得到有意义的结果。d、评估中间管道阶段的输出。选择从中间阶段直接评估结果,可以精确地识别错误出现的地方,并可以推广到多个下游阶段,但对下游目标的评估更能反映对实验台的影响 

参考文献

[1] Brooks TG, Lahens NF, Mrčela A, Grant GR. Challenges and best practices in omics benchmarking. Nat Rev Genet. 2024 Jan 12. doi: 10.1038/s41576-023-00679-6. 

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

17. 实验验证型人类miRNA-mRNA互作数据库综述

18. 肿瘤免疫治疗基因表达资源:TIGER

19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA

20. 首个全面的耐药性信息景观:DRESIS

21. 生物信息资源平台:bio.tools

22. 研究资源识别门户:RRID

23. 包含细胞上下文信息的细胞互作数据库:CCIDB

24. HMDD 4.0miRNA-疾病实验验证关系数据库

25. LncRNADisease v3.0lncRNA-疾病关系数据库更新版

26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA

27. CellSTAR:单细胞转录基因组注释的综合资源

28. RMBase v3.0RNA修饰的景观、机制和功能

29. CancerProteome:破译癌症中蛋白质组景观资源

30. CROST:空间转录组综合数据库

 

image.png

 



https://wap.sciencenet.cn/blog-571917-1420614.html

上一篇:利用差异因果效应识别失调癌症通路
下一篇:GEARS:预测多基因扰动的转录结果
收藏 IP: 39.128.54.*| 热度|

1 杨正瓴

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-29 20:02

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部