|
在多源观测数据爆炸式增长的今天,地球科学、生态学、环境工程与公共健康等领域的研究者面临着从复杂、高维、非线性的自然系统中提取可靠知识的核心挑战。传统的统计模型常受限于线性假设与变量交互建模能力,而“黑箱”深度学习又难以满足科研对机制解释与因果证据的严苛要求。因此,如何在预测性能与科学可解释性之间架起桥梁,成为推动学科发展的关键。
随机森林及其现代扩展方法,正逐渐成为应对这一挑战的理想工具。本内容体系从经典的分类回归树出发,系统构建覆盖随机森林全流程建模与前沿扩展的完整知识框架,旨在帮助科研工作者不仅提升模型的预测稳健性,更深入实现可解释分析、异常识别、不确定性量化、因果推断与空间异质性建模,从而在数据驱动的时代,讲好更严谨、更富洞察的科学故事。
专题一 树模型基石-从决策规则到可解释智能的起点
1、数据类型与面临问题的识别
2、分类回归树及随机森林的能够解决的问题:预测与可解释性
3、分类回归树模型的构建
4、分类回归树模型推广:装袋树、袋外误差
案例一:经典论文解析,问题类型识别
案例二:用分类回归树预测臭氧浓度
案例三:装袋树模型下黑臭水体的分类
专题二 标准随机森林全过程构建稳健、可发表的预测模型
1、随机森林理论
2、数据预处理:缺失值插补、异常值识别以及时间序列的处理
3、随机森林超参数调优
4、分类与回归问题性能评估
案例四:臭氧浓度的随机森林预测
案例五:遥感下土地利用的随机森林分类
案例六:基于基因的患病几率预测
专题三 随机森林的可解释机器学习(XAI)
1、变量重要性与选择方法:置换法及其指标
2、基于博弈论的指标:SHAP,Conditional SHAP,KernelSHAP, DynamicSHAP等
3、对重要性指标误用的讨论
案例七:河道黑臭的重要影响因素
案例八:PM10的分区局部影响因素
专题四 异常值处理与分位关联
1、异常值识别的传统方法
2、孤立森林的基本原理
3、孤立森林的实现
4、不同的相关关系:分位数随机森林
案例九:蓝藻爆发的异常点识别
专题五 预测的不确定性与极端值估计
1、置信区间以及为什么需要置信区间
2、分位数回归的基本原理
3、分位数随机森林
4、树的贝叶斯模型:贝叶斯可加回归树
案例十:叶绿素A与营养物质极值相关性
案例十一:用贝叶斯可加回归树预测混凝土抗压强度及其不确定性
专题六 异质性处理效应的随机森林解法
1、因果效应潜在结果框架
2、条件平均处理效应
3、异质性效应估计:因果随机森林
案例十二:禁排政策对湖泊水质不同区域的因果分析
专题七 地理加权随机森林空间异质性建模
1、空间异质性:空间不是全局同质的
2、地理加权模型基础
3、局部样本构建与自适应带宽的选择
4、地理加权随机森林
案例十三:PM10城市不同区域的效应分析
关 注【科研充电吧】公 众 号,获取海量教程和资源
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-12-17 15:01
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社