借助Bioconductor社区开展生物数据科学教学
现代生物学研究在很大程度上依赖于高通量技术,包括测序、成像、细胞流和质谱法。这些技术生成了大量数据,这些数据需要多学科团队和复杂计算方法进行分析和解释。为了满足对生物学训练有素的数据科学家日益增长的需求,已经付出巨大努力来建立和传播教学最佳实践。
Bioconductor成立于2001年,是一个强大且广泛使用的开源软件社区项目,用于生物数据分析。它全面收集了2300多个R包,并提供了专门的数据结构和生物学数据分析方法。Bioconductor通过自动化构建系统确保其包装的可靠性和鲁棒性,该系统每天检查所有软件包,以了解代码质量、文档完整性和遵守Bioconductor标准。这使其对开发人员有吸引力,其中成千上万的已经为该项目贡献了R包。其全面的数据分析方法套件使其对研究人员很有价值,并且年度下载估计值超过100万。鉴于Bioconductor的广泛范围,将其广泛的生态系统浏览并有效地利用所需的包对研究人员来说可能具有挑战性。为了促进有效的发现和使用其资源,于2020年成立Bioconductor培训委员会,以简化和协调教育计划。委员会的目标包括为有兴趣培训的社区成员提供聚会场所,倡导维持重要的现有材料,确定当前材料的差距以及与其他生物信息学社区协调培训活动。
对“我如何开始使用Bioconductor?”这个问题的最佳答案?取决于人的目标和背景。最近在《PLOS Computational Biology》杂志发表的手稿《Learning and teaching biological data science in the Bioconductor community》概述了Bioconductor社区开发的许多资源(见https://doi.org/10.1371/journal.pcbi.1012925.s001)。第一部分采用学习者的角度,并根据目标提出合适的入口点。第二部分则采用了教育者的观点,并概述了可用的资源和社区来协助提供与生物相关的培训。目前,Bioconductor社区遍布世界各地。
生物数据量和复杂性的增长,再加上研究人员分析的不同背景,强调了对高质量和可访问的学习材料的需求。例如,许多现代的生物医学项目涉及多种高通量分子数据类型的整合,需要专门针对此类综合任务的培训材料。数据量的增加还要求用户在新的环境(如服务器或高性能计算环境)中工作,或者使用磁盘支持的数据结构。此外,分析的某些部分可能需要使用与Python或C++等R不同的编程语言。
Bioconductor培训委员会旨在解决的主要挑战是组织分散的努力,以开发新的文档和教学内容。随着任务变得越来越复杂和新技术的出现,具有足够专业知识的讲师数量来编译和提供相应的培训材料减少,这可能会导致庞大的未满足的培训需求。通过使培训材料公平可以缓解这种方法。为此,在Bioconductor中建立了一个工作组,以通过TESS提高训练材料的可发现性和可访问性。为了激励和补偿分散的努力,Bioconductor正在与其他开源项目(例如Galaxy)合作组织Sprint,并不断向CZI等组织寻求资金,以获得其他教练认证。监视内容维护的策略包括对维护者的明确标记以及对单个软件包小插图的持续集成和自动测试。根据大量包裹的工作流程和书籍仍然是一项挑战,尤其是因为为此努力提供了资金机会。培训委员会正在探索的另一种途径是合并和创建简短的“如何进行”文件,每个文件都说明了如何使用Bioconductor包来解决一个非常具体的问题。
具有多样化的专家开发人员和用户社区以及强大的技术基础设施,可以很好地应对挑战。培训委员会非常适合帮助组织和协调培训工作,开发和维护教育材料,并确保广泛传播。最后,鼓励新成员与Bioconductor社区互动。无论是有兴趣为Bioconductor项目做出贡献、参加研讨会还是参加讨论,都有很多参与的方法。加入Bioconductor会议,与Bioconductor互动,或参加举行的研讨会,其旨在建立一个充满活力和包容性的Bioconductor社区。
参考文献
[1] Drnevich J, Tan FJ, Almeida-Silva F, Castelo R, Culhane AC, Davis S, Doyle MA, Geistlinger L, Ghazi AR, Holmes S, Lahti L, Mahmoud A, Nishida K, Ramos M, Rue-Albrecht K, Shih DJH, Gatto L, Soneson C. Learning and teaching biological data science in the Bioconductor community. PLoS Comput Biol. 2025 Apr 22;21(4):e1012925. doi: 10.1371/journal.pcbi.1012925.
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源
38. LncPepAtlas:探索lncRNA翻译潜力综合资源
40. MirGeneDB 3.0:miRNA家族和序列数据库
转载本文请联系原作者获取授权,同时请注明本文来自张俊鹏科学网博客。
链接地址:https://wap.sciencenet.cn/blog-571917-1487049.html?mobile=1
收藏