IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

《自动化学报》创刊60周年专刊|基于因果建模的强化学习控制: 现状及展望

已有 1620 次阅读 2023-4-9 16:52 |系统分类:博客资讯

引用本文

 

孙悦雯, 柳文章, 孙长银. 基于因果建模的强化学习控制: 现状及展望. 自动化学报, 2023, 49(3): 661−677 doi: 10.16383/j.aas.c220823

Sun Yue-Wen, Liu Wen-Zhang, Sun Chang-Yin. Causality in reinforcement learning control: The state of the art and prospects. Acta Automatica Sinica, 2023, 49(3): 661−677 doi: 10.16383/j.aas.c220823

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c220823

 

关键词

 

强化学习控制,因果发现,因果推理,迁移学习,表示学习 

 

摘要

 

基于因果建模的强化学习技术在智能控制领域越来越受欢迎. 因果技术可以挖掘控制系统中的结构性因果知识, 并提供了一个可解释的框架, 允许人为对系统进行干预并对反馈进行分析. 量化干预的效果使智能体能够在复杂的情况下 (例如存在混杂因子或非平稳环境) 评估策略的性能, 提升算法的泛化性. 本文旨在探讨基于因果建模的强化学习控制技术 (以下简称因果强化学习) 的最新进展, 阐明其与控制系统各个模块的联系. 首先介绍了强化学习的基本概念和经典算法, 并讨论强化学习算法在变量因果关系解释和迁移场景下策略泛化性方面存在的缺陷. 其次, 回顾了因果理论的研究方向, 主要包括因果效应估计和因果关系发现, 这些内容为解决强化学习的缺陷提供了可行方案. 接下来, 阐释了如何利用因果理论改善强化学习系统的控制与决策, 总结了因果强化学习的四类研究方向及进展, 并整理了实际应用场景. 最后, 对全文进行总结, 指出了因果强化学习的缺点和待解决问题, 并展望了未来的研究方向.

 

文章导读

 

近年来, 人工智能的研究范围不断拓宽, 并在医疗健康、电力系统、智慧交通和机器人控制等多个重要领域取得了卓越的成就. 以强化学习为代表的行为决策和控制技术是人工智能驱动自动化技术的典型代表, 与深度学习相结合构成了机器智能决策的闭环[1]. 强化学习控制是指基于强化学习技术制定控制系统中行动策略的方法. 强化学习的主体, 即智能体, 通过交互的手段从环境中获得反馈, 以试错的方式优化行动策略. 由于擅长处理变量间复杂的非线性关系, 强化学习在面对高维和非结构化数据时展现出了极大的优势. 随着大数据时代的到来, 强化学习控制技术快速崛起, 在学术界和产业界获得了广泛关注, 并在博弈[2-5]、电力系统[6-7]、自动驾驶[8-9]和机器人系统[10]等领域取得了巨大突破. 在实际系统应用中, 强化学习被广泛应用于路径规划和姿态控制等方面, 并在高层消防无人机路径规划[11]和多四旋翼无人机姿态控制[12]等实际任务中取得了良好的控制性能.

 

尽管如此, 强化学习在处理控制任务时仍面临一些缺陷, 主要体现在以下两个方面. 一是难以在强化学习过程中进行因果推理. 大多数强化学习控制算法是基于采样数据间的相关关系完成对模型的训练, 缺少对变量间因果效应的判断. 而在控制任务中, 任务的泛化和模型的预测通常建立在因果关系之上. 越来越多的证据表明, 只关注相关性而不考虑因果性, 可能会引入虚假相关性, 对控制任务造成灾难性的影响[13]. 二是无法在迁移的场景下保证控制算法的泛化性. 泛化性是指强化学习模型迁移到新环境并做出适应性决策的能力, 要求学习的策略能够在相似却不同的环境中推广. 然而在面临环境改变或者任务迁移时, 智能体收集到的观测数据表现出非平稳性或异构性, 训练数据和测试数据的独立同分布条件受到破坏. 在这种情况下, 强化学习算法常常表现不佳, 无法保证策略的泛化性[14-15], 难以直接推广到更普遍的控制场景.

 

为了解决上述问题, 目前研究人员尝试在强化学习任务中引入因果理论, 提出了基于因果建模的强化学习控制算法. 因果强化学习的中心任务是在控制问题中建立具有因果理解能力的模型, 揭示系统变量之间的因果关系, 估计数据之间的因果效应, 进一步通过干预和推断, 理解智能体的运行机理. 近年来, 包括ICLR, NeurIPS, ICMLAAAI在内的人工智能重要国际会议多次设立研讨会, 探索因果理论在机器学习领域的发展和应用[16-19]. 越来越多控制性能优异的因果强化学习算法被陆续提出, 成为最新的研究热点. 建立可解释的因果模型并保证算法的合理决策, 是加速推广强化学习控制算法落地的必要条件, 具有理论意义和应用价值. 本文的主旨是梳理目前因果强化学习的研究现状, 讨论因果理论如何提供变量间因果关系的解释, 帮助改善非平稳或异构环境下的可迁移的决策, 提高数据利用率, 并对未来工作方向提供可借鉴的思路.

 

本文内容安排如下: 1节介绍强化学习的基本概念和经典算法, 并指出传统强化学习算法的缺陷. 2节介绍因果关系和因果模型的概念, 总结因果效应估计和因果关系发现的研究内容, 为解决强化学习的缺陷提供了可行方案. 3节构建因果强化学习系统的抽象模型, 在此基础上整理出四个研究方向, 综述了因果强化学习的最新研究进展并总结了应用场景. 4节总结全文, 指出了因果强化学习的缺点和待解决的问题, 并对未来的发展趋势进行展望.

 1  强化学习框图

 2  结构因果模型及其组成部分

 3  在倒立摆系统中提取系统变量之间的因果关系

 

由于在可解释性以及跨域迁移等方面展现出优势, 因果理论已经被广泛应用于强化学习领域, 并且在控制系统中表现出了良好的性能. 本文致力于阐述因果强化学习算法如何探索数据之间的因果关系, 并在决策过程中提供因果解释. 因果强化学习以无监督的方式构建环境的因果模型, 实现跨域分布泛化, 并利用因果模型进行推理, 设计有效的干预措施进行策略更新. 本文首先概述了强化学习和因果理论的背景知识, 在此基础上, 对因果强化学习的研究现状进行阐述. 针对强化学习领域的两类研究缺陷, 总结了四类研究方向, 具体包括: 1) 因果表征提取; 2) 可迁移的环境因果模型; 3) 动作效果估计; 4) 反事实动作推理.

 

虽然基于因果建模的强化学习控制可以解决强化学习可解释性和可迁移性的问题, 提升数据利用率, 但是仍存在以下缺点: 1) 依赖不可测试假设. 尽管目前已有多项研究成果可以根据观测数据估计因果结构, 但这些方法通常是不可扩展的, 依赖于不可测试的假设 (如因果忠诚性假设), 因此难以融入高维、复杂和非线性的强化学习系统. 2) 欠缺理论研究基础. 目前针对因果强化学习理论层面上的研究还远远不够. 例如在因果表征领域, 现有的可识别性理论研究大多基于非平稳或时序数据, 并且需要对模型类型做出较强的假设. 在更一般的场景下 (如因果关系发生变化或存在瞬时因果关系) 的可识别性理论研究目前还是空白. 3) 难以保证控制性能. 虽然利用因果理论, 动作策略能够表现出良好的控制效果, 但是基于探索与试错的方法并不能在理论上保证控制性能的收敛. 目前还没有一套完善的框架能够评估因果强化学习的控制策略是否稳定, 这可能阻碍因果理论在强化学习控制系统中的研究发展.

 

综上, 虽然因果强化学习展现出了具有潜力的应用前景, 但是目前研究成果相对较少, 研究的广度和深度都略显不足, 还存在以下待解决的问题.

1) 探索归纳偏置对因果强化学习的影响. 归纳偏置指的是学习算法中假设的集合. 目前大多数因果迁移强化学习的研究都是基于独立因果机制和最小变化原则. 当不满足条件独立性假设或没有额外辅助信息的情况下, 如何选取归纳偏置, 使算法能够自动检测分布的变化并在有限时间内保证算法收敛是一个亟待解决的问题.

2) 完善潜在因果变量的可识别性理论. 从因果表征的角度来说, 潜在因果变量的可识别性是因果变量提取和因果动态分析的理论基础. 虽然已有研究表明在非参数非平稳模型或者线性高斯平稳模型的假设下, 潜在因果变量可识别性可以得到保证[82], 但是当变量间因果关系发生变化或存在瞬时因果关系时, 如何基于观测数据恢复潜在因果变量是一个值得研究的问题.

3) 构造因果强化学习框架的稳定性评估机制. 从策略学习的角度来说, 确保控制器的稳定是控制理论中首要考虑的问题. 虽然已有研究表明, 在反事实数据增强的场景下, Q学习可以收敛到最优值函数[81], 但是如何构造一套完整的因果强化学习框架以评估控制策略的稳定性是一个亟待解决的问题.

 

解决上述问题并将因果强化学习推向更广阔、更现实的应用场景将是未来的研究方向, 具体来说包括以下几个方面.

1) 合理利用观测数据和干预数据. 在因果强化学习中, 根据有无人为干预可以将数据分为无人为干预的观测数据和有人为干预的干预数据. 从数据分布上来看, 观测数据可能受控制策略、混杂因子和潜在因果变量的影响, 干预数据受人为控制的影响, 由这些原因导致的分布不匹配会造成选择偏倚的问题. 但是如果对选择偏倚进行适当的修正, 则可以提高数据利用率, 增加模型的可解释性. 因此在强化学习中合理地利用观测数据和干预数据, 采取适当的方式将知识分解为独立因果机制非常具有研究价值.

2) 构建普适的基准测试环境. 在强化学习的应用背景下, 传统的评估指标不足以判断因果模型的好坏. 大多数研究成果都在不同的实验场景下验证算法性能, 无法横向判断模型结构的好坏, 也难以衡量因果模型和强化学习算法对控制性能的贡献程度. 因此构建一个普适的因果强化学习基准数据集, 验证和比较各类因果强化学习方法就显得至关重要.

3) 将因果强化学习拓展到多智能体场景. 目前针对因果强化学习的研究都是针对单智能体. 在多智能体场景下, 联合状态空间和联合动作空间将随着智能体个数的增加呈指数性扩大, 极大地加重了计算负担. 考虑到使用恰当的结构化表征有利于提高系统控制性能, 如何在多智能体系统中构建可迁移的环境因果模型, 减轻计算负担并提高系统的可解释性, 将是非常有趣且可行的研究方向.

 

作者简介

 

孙悦雯

东南大学自动化学院博士研究生. 2017年获得山东大学学士学位. 主要研究方向为强化学习与因果发现. E-mail: amber_sun@seu.edu.cn

 

柳文章

安徽大学人工智能学院博士后. 2016年获得吉林大学学士学位, 2022年获得东南大学博士学位. 主要研究方向为多智能体强化学习, 迁移强化学习. E-mail: wzliu@ahu.edu.cn

 

孙长银

东南大学自动化学院教授. 主要研究方向为智能控制与优化, 强化学习, 神经网络, 数据驱动控制. 本文通信作者. E-mail: cysun@seu.edu.cn



https://wap.sciencenet.cn/blog-3291369-1383558.html

上一篇:《自动化学报》创刊60周年专刊|无线化工业控制系统: 架构、关键技术及应用
下一篇:张承慧教授等:元能源系统:综合能源互联网与元宇宙的交互
收藏 IP: 117.114.9.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-15 11:39

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部