张俊鹏
社区检测算法的广泛基准测试
2025-6-2 14:41
阅读:653

社区检测算法的广泛基准测试 

社区检测算法是识别网络中密集连接节点集群或组的关键工具。这些算法具有广泛的应用,从社会学和生物学到大数据处理和并行计算任务。它们通过揭示底层网络的隐藏模式和介观特性,为复杂系统的结构和组织提供了有价值见解。 

从历史上看,基准测试工作主要集中在使用PythonR库中可用的标准方法,如igraphNetworkX。最近的基准测试研究的一个重要方面来自2028年的DREAM挑战(https://www.synapse.org/modulechallenge),该挑战侧重于在广泛的匿名生物网络中识别富含疾病的模块。最近的发展包括采用深度学习技术和重叠社区检测算法的技术,这两种技术都获得了相当大的吸引力。 

Sapna等人实现了混合技术,通过各种修改增强了传统算法,并引入了新方法。通过广泛的基准测试创建了一个全面的框架(图1),以评估和比较不同网络结构中不同社区检测方法的有效性。作者们还提供作为Python包实现的算法(https://github.com/Sap27/Comm_Detection),使其成为未来研究和应用的可访问工具。 

 image.png  

1 总体基准测试工作流程。基准测试工作流程可以分为三个阶段:输入、算法和基准测试 

在这项研究中,作者们对社区检测的经典算法和混合经典算法进行了全面的实现和基准分析。评估方案涵盖了三类网络:人工网络、社交网络和生物网络,并且提供了对算法性能的独特见解。 

由于人工网络中已知真实社区结构,因此可以使用归一化互信息(NMI)度量进行直接定量评估。结果表明,随着混合参数(µ)从0增加到1,算法性能通常遵循S形或线性退化模式,这反映了区分社区边界的难度越来越大。人工基准可能无法完全捕捉到现实网络的中尺度和微观尺度特性。肖等人的工作通过重新连接现实世界的网络并保留其关键属性来构建基准,可以解决当前真实和人工基准的局限性。尽管社交网络中真实社区的概念并不十分清楚,但基准分析突显了某些算法的实际局限性和瓶颈。例如,Spinglass算法需要一个完全连接的网络,这对于大规模稀疏社交图来说通常是不现实的。这一分析让我们了解了现实世界应用中的算法约束。 

生物网络使算法能够根据其发现生物富集群落的能力进行评估,这些群落是分子系统中功能相关的模块。在评估的方法中,利用指数拉普拉斯核的Blue_Genes算法和Zhenhua方法(将Walktrap聚类与使用Infomap的进一步细化相结合)在该领域表现最佳。 

SpecHierTripleAHC等算法在人工基准分析方面表现出色,但在生物网络中表现平平。相反,NextMRShared neighbor等算法在人工基准分析中表现不佳,但在生物基准分析中获得了高倍的富集分数。这些观察再次突显了幂律网络和生物网络之间的根本区别。 

在未来的工作中需要优化的一个关键维度是计算资源的管理。随着网络规模的增长,Shared neighborBlue_Genes算法的计算时间都呈现出非线性增长,这在推理过程中带来了重大挑战。类似地,由于涉及到密集的矩阵操作,SVT依赖于通过scipy进行的奇异值分解,从而施加了内存约束。虽然实现的经典算法为GPU优化提供了有限的范围,但未来研究可以探索深度学习技术,如图神经网络、图GAN和图自动编码器,以实现更好的计算效率。 

该领域越来越倾向于重叠的社区检测算法。对这些方法进行基准测试可以显著推进正在进行的研究工作。FortunatoLancichnetti为具有重叠社区的加权有向网络开发了分层LFR基准,为评估提供了宝贵的工具。此外,Fortunato等人专门为动态演化网络设计了随机块模型基准。 

总之,该文对社区检测算法进行了全面的基准测试,强调了上下文感知评估的重要性。通过整合不同网络类型、可重复工具和生物验证,揭示了关键算法权衡和特定领域的行为。研究结果强调,合成基准测试的性能不一定能转化为现实世界的效用(特别是在生物网络中),以及指导更明智和上下文敏感的算法选择。 

参考文献

[1] R Sapna, Harikeshav Karthik, Karthik Raman. Extensive Benchmarking of Community Detection Algorithms, bioRxiv 2025.05.07.652778; doi: https://doi.org/10.1101/2025.05.07.652778 

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

17. 实验验证型人类miRNA-mRNA互作数据库综述

18. 肿瘤免疫治疗基因表达资源:TIGER

19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA

20. 首个全面的耐药性信息景观:DRESIS

21. 生物信息资源平台:bio.tools

22. 研究资源识别门户:RRID

23. 包含细胞上下文信息的细胞互作数据库:CCIDB

24. HMDD 4.0miRNA-疾病实验验证关系数据库

25. LncRNADisease v3.0lncRNA-疾病关系数据库更新版

26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA

27. CellSTAR:单细胞转录基因组注释的综合资源

28. RMBase v3.0RNA修饰的景观、机制和功能

29. CancerProteome:破译癌症中蛋白质组景观资源

30. CROST:空间转录组综合数据库

31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具

32. Open-ST3D高分辨率空间转录组学

33. CanCellVar:人类癌症单细胞变异图谱数据库

34. dbCRAF:人类癌症中放射治疗反应调控知识图谱

35. DDID:饮食-药物相互作用综合资源可视化和分析

36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源

37. CancerSCEM 2.0:人类癌症单细胞表达谱数据资源

38. LncPepAtlas:探索lncRNA翻译潜力综合资源

39. SPATCH:高通量亚细胞空间转录组学平台

40. MirGeneDB 3.0miRNA家族和序列数据库

image.png

 

转载本文请联系原作者获取授权,同时请注明本文来自张俊鹏科学网博客。

链接地址:https://wap.sciencenet.cn/blog-571917-1488195.html?mobile=1

收藏

分享到:

下一篇
当前推荐数:1
推荐人:
推荐到博客首页
网友评论0 条评论
确定删除指定的回复吗?
确定删除本博文吗?