张俊鹏
RobPy:鲁棒统计方法Python工具包
2025-1-22 12:29
阅读:352

RobPy:鲁棒统计方法Python工具包

包含异常值的数据对数据科学家构成了严峻的挑战。异常值会严重扭曲统计分析的结果,因此应谨慎处理。鲁棒统计领域开发了一套工具,旨在即使数据中存在异常值也能提供可靠结果。鲁棒方法采用的方法是首先将模型拟合到干净数据部分,然后通过它们与这种鲁棒拟合的偏差来检测潜在的异常值。

在过去二十年中,R 一直是实现和传播鲁棒统计方法的主要编程语言。Robustbaserrcov等软件包被广泛用于鲁棒统计分析,仅 Robustbase就有近 1000 万次下载。更专业的软件包,如用于高维数据的robustHD和专注于逐个单元格异常值的cellWise,进一步扩展了 R 中的鲁棒统计方法。此外,其中一些算法已通过LIBRA库和FSDA库在 MATLAB 中实现。

尽管 Python 在数据科学领域越来越受欢迎,但 Python 中可用的鲁棒统计方法仍然有限。除了少数实现,例如scikit-learn库中的MinCovDet函数和statsmodels 中用于回归M估计量的 RLM 函数,Python 用户几乎无法使用 R 中现有的鲁棒工具。

为了解决这一问题,Leyder等人开发了RobPy,这是一个 Python 包,它将最流行的鲁棒统计算法整合到一个框架下。基于NumPySciPyscikit-learn等成熟库,RobPy提供了用于数据预处理、单变量估计、协方差矩阵、回归和主成分分析的强大工具。 这些工具由用于诊断和处理异常值的专门可视化技术补充。RobPy旨在将强大的数据科学算法带给更广泛的受众,使 Python 用户即使在存在异常值的情况下也能执行可靠的数据分析。

RobPy: a Python Package for Robust Statistical Methods》小册子将首先描述 RobPy包的结构(图1),并解释它如何基于现有统计和数据科学 Python 库。值得注意的是,还提供了RobPy包函数应用于实际数据的实际示例。

image.png

1 RobPy包每个模块的实现方法

参考文献

[1] Sarah Leyder, Jakob Raymaekers, Peter J. Rousseeuw, Thomas Servotte, Tim Verdonck. RobPy: a Python Package for Robust Statistical Methods. arXiv, 2024, https://doi.org/10.48550/arXiv.2411.01954

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

17. 实验验证型人类miRNA-mRNA互作数据库综述

18. 肿瘤免疫治疗基因表达资源:TIGER

19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA

20. 首个全面的耐药性信息景观:DRESIS

21. 生物信息资源平台:bio.tools

22. 研究资源识别门户:RRID

23. 包含细胞上下文信息的细胞互作数据库:CCIDB

24. HMDD 4.0miRNA-疾病实验验证关系数据库

25. LncRNADisease v3.0lncRNA-疾病关系数据库更新版

26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA

27. CellSTAR:单细胞转录基因组注释的综合资源

28. RMBase v3.0RNA修饰的景观、机制和功能

29. CancerProteome:破译癌症中蛋白质组景观资源

30. CROST:空间转录组综合数据库

31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具

32. Open-ST3D高分辨率空间转录组学

33. CanCellVar:人类癌症单细胞变异图谱数据库

34. dbCRAF:人类癌症中放射治疗反应调控知识图谱

35. DDID:饮食-药物相互作用综合资源可视化和分析

36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源

image.png

 

转载本文请联系原作者获取授权,同时请注明本文来自张俊鹏科学网博客。

链接地址:https://wap.sciencenet.cn/blog-571917-1469891.html?mobile=1

收藏

分享到:

当前推荐数:0
推荐到博客首页
网友评论0 条评论
确定删除指定的回复吗?
确定删除本博文吗?