邹铁枫
基于数据的未知连续多输入系统积分强化学习神经控制
2025-5-22 09:39
阅读:205

本期将给大家分享“Data-based neural controls for an unknown continuous-time multi-input system with integral reinforcement (基于数据的未知连续多输入系统积分强化学习神经控制)”。

自适应/近似动态规划(ADP)通过学习Hamilton–Jacobi–Bellman(HJB)方程的近似解,广泛应用于线性和非线性系统。在线性系统中,研究者们通过迭代算法和鲁棒控制方法解决不确定性问题;而在非线性系统中,神经网络的引入使得复杂的控制约束和多输入博弈问题得以解决。离散(DT)系统中,迭代ADP和积分强化学习(IRL)为优化代价函数和非零和博弈提供了高效解决方案。相比之下,连续时间(CT)系统的控制更加复杂,仍面临输入动态难以获取的挑战。针对这些难点,本文将围绕一种基于IRL的自适应神经动态规划(ANDP)方法展开。该方法能够在完全未知的CT多输入系统中实现最优控制,无需依赖系统精确的动力学模型。

Data-based neural controls for an unknown continuous-time multi-input system with integral reinforcement(基于数据的未知连续多输入系统积分强化学习神经控制)

作者:Yongfeng Lv1 · Jun Zhao2 · Wan Zhang1 · Huimin Chang3

机构:1 太原理工大学电气与动力工程学院;2 山东科技大学交通学院;3 山西大学数学科学学院

引用:Lv, Y., Zhao, J., Zhang, W. et al. Data-based neural controls for an unknown continuous-time multi-input system with integral reinforcement. Control Theory Technol. 23, 118–130 (2025). https://doi.org/10.1007/s11768-024-00238-2

全文链接:‍https://rdcu.be/d‍5hr3‍

摘 要  

积分强化学习(Integral Reinforcement Learning, IRL)是一种解决非线性系统最优控制问题的有效方法,广泛应用于离散时间非线性系统的最优控制器设计。然而,对于非线性系统而言,求解Hamilton–Jacobi–Bellman (HJB)方程需要精确且复杂的动力学模型。此外,IRL在连续时间系统中的研究和应用仍需进一步完善。为了开发连续非线性系统的IRL方法,本文提出了一种基于数据的自适应神经动态规划(Adaptive Neural Dynamic Programming, ANDP)方法,用于研究不确定连续多输入系统的最优控制问题,从而避免了HJB方程中的系统动态。 

首先,本文使用神经网络对多输入模型进行逼近,该模型可用于设计积分强化信号。随后,基于积分强化信号构建了两个评价网络和一个执行网络。通过学习多输入模型的最优策略,可实现非零和纳什均衡。在该方案中,神经网络权值通过自适应算法不断更新,并对权值收敛性和系统稳定性进行了详细分析。本文提出的ANDP方案能够有效解决多输入非线性连续系统的最优控制问题,并通过仿真实验验证了所提方法的有效性。

引 言  

自适应/近似动态规划(ADP) 通过学习Hamilton–Jacobi–Bellman (HJB)方程的近似解,被广泛应用于线性和非线性系统的最优控制问题。对于线性系统的最优控制,线性HJB方程是一种Riccati方程,可以通过多种算法求解。有研究提出一种用于线性系统常规最优控制的迭代算法,也有研究提出了一种针对不确定线性系统的鲁棒反馈近似最优控制算法。     

针对连续非线性系统,神经网络近似算法可以很好地处理正向时间中的非线性HJB方程。有研究通过求解HJB方程近似获得了受约束的最优控制,其中使用神经网络逼近了代价函数。也有研究提出了一种同步权值学习方案,用于设计针对受约束输入的非线性系统跟踪ADP方案。此外,一项研究在ADP方案中应用了一种新的估计算法,研究了多输入系统,使得多输入可以在非零和博弈中找到均衡点。另一项研究则提出了一个仅基于辨识-评价结构的H-infinity控制对方案,使得系统在遭受未知干扰时可以作为零和博弈来稳定。迭代ADP(Iterative ADP, IADP)结构是一种高效的最优控制求解方法,可以克服离散(DT)系统中所有类型的控制问题。有研究提出了一个IADP算法,用于在DT HJB方程中获得优化代价函数的迭代策略。另一项研究提出了一种有限时域ADP结构,用于学习非零和博弈系统的最优控制,其中价值函数可以在有限时间内优化。离散时间积分强化学习(Integral Reinforcement Learning, IRL)方案用于求解带损失因子的最优控制问题。此外,在ADP方案中还有其他方向,例如事件触发的数据驱动控制和最优切换控制。     

上述ADP方案的关键在于学习HJB方程的近似解。然而,有研究指出,系统输入动态是学习最优策略的必要条件,但在实际工程应用中精确获取输入动态极为困难。启发式动态规划(Heuristic Dynamic Programming, HDP)方案的特点是避免对DT系统的精确动力学建模,它是一种自适应评价准则设计技术。有研究开发了HDP方案,用于学习DT零和博弈的最优策略,其中前向时间强化学习算法可以使结果收敛到纳什均衡。另一项研究设计了一种复杂的直升机飞行控制器,学习方法被定义为直接神经动态规划(Direct Neural Dynamic Programming, DNDP),也有研究提出了直接HDP方案,以克服大规模DT电力系统中因非线性和不确定性导致的模型缺陷。     

据我们所知,大多数HDP方案仅考虑DT系统。相比之下,基于强化学习的CT系统控制研究更为困难,因为难以在CT域中识别Bellman误差。此外,有研究提出的IRL能够为CT系统提供一种高效解决办法,并已用于探索跟踪策略和多输入非零和博弈,但该方法仍需要系统输入动态已知。     

本文提出了一种基于IRL算法的自适应神经动态规划(Adaptive Neural Dynamic Programming, ANDP) 方法,用于完全未知的CT多输入系统。所提出的ANDP方案也可以扩展到其他CT系统的最优控制问题,而无需考虑系统动力学模型。首先,本文将多输入系统的最优问题形式化并定义积分强化信号。接着,构建神经网络观测器逼近多输入模型。随后,利用一个辨识神经网络和两个评价及一个执行神经网络设计CT ANDP方案。     

本研究的贡献如下:

  1. 提出了一种结合积分强化学习(IRL) 方案的ϵ-最优ANDP算法,用于学习CT系统的最优策略,该算法在以往文献中仅应用于DT系统。

  2. 基于输入–输出数据的ANDP方案,研究完全未知多输入系统的最优控制,评价网络的权值通过积分强化项更新,使系统达到纳什均衡。

  3. 利用Lyapunov方法详细分析了所提ANDP方案的稳定性以及网络权值的收敛性。

结 论  

本文针对连续(CT)多输入系统,提出了一种基于数据的自适应神经动态规划方案,利用积分强化学习避免了设计近似最优控制器时对系统动力学知识的依赖。首先,使用三层网络对多输入系统进行逼近。在第 i 个控制器设计中,基于积分强化信号和模型网络设计了两个评价网络和一个执行网络。所有网络权值通过最小化目标误差函数进行更新。多个输入被设计以满足定义的非零和纳什均衡条件。 

本文分析了模型网络和策略网络权值的收敛性。此外,证明了在设计的最优策略下多输入系统的稳定性。最后,通过两个数值示例验证了该在线ANDP方案对多输入CT非线性系统的有效性。未来的研究工作将开发一种针对具有未知扰动的非线性多输入系统的有限时间鲁棒ADP方案。

作者介绍

Yongfeng Lv, 2012年和2016年分别获得昆明理工大学机电工程学院机电工程专业学士学位和硕士学位,2020年获得北京理工大学自动化学院控制科学与工程博士学位。2021年至2022年,他在英国华威大学工程学院担任研究员。目前,他是太原理工大学电气与动力工程学院的副教授,研究方向包括智能控制、自适应动态规划、微电网系统和伺服系统。

Jun Zhao, 2021年获得昆明理工大学机电工程学院博士学位。2021年至2023年,他在山东科技大学从事博士后研究。目前,他是山东科技大学交通学院的专职教授,研究方向包括伺服控制、最优控制、鲁棒控制和自适应动态规划。

Wan Zhang, 2022年获得安徽工业大学电气工程学院建筑电气与智能化工程专业学士学位。目前,她在太原理工大学电气与动力工程学院攻读控制工程硕士学位。研究方向包括自适应动态规划和有限时间控制。

Huimin Chang, 2013年和2019年获得山西大同大学应用数学硕士学位和山西大学博士学位。自2019年以来,她是山西大学数学科学学院的讲师,研究方向包括最优控制和特征群理论。

期刊简介

cover.jpg  640 spr.jpg

欢迎扫码进入期刊主页

Control Theory and Technology (CTT), 中文名《控制理论与技术》, 创刊于2003年,原刊名为Journal of Control Theory and Applications,2014年刊名更改为Control Theory and Technology。由华南理工大学与中国科学院数学与系统科学研究院联合主办,主要报道系统控制科学中具有新观念、新思想的理论研究成果及其在各个领域中的应用。目前被 ESCI (JIF 1.7)、EI、Scopus (CiteScore 3.1,更新于2025年4月5日)、CSCD、INSPEC、ACM 等众多数据库收录, 并于2013–2018年获得两期中国科技期刊国际影响力提升计划项目资助。2017–2021年连续获得“中国最具国际影响力学术期刊”和“中国国际影响力优秀学术期刊”称号,获得广东省高水平科技期刊建设项目(2021-2024年),2022-2024年进入中国科协自动化学科领域高质量科技期刊目录。

官网https://link.springer.com/journal/11768 (即http://www.springer.com/11768)

https://jcta.ijournals.cn/cta_en/ch/index.aspx

投稿https://mc03.manuscriptcentral.com/ctt

微信:ControlTheoryTech (欢迎扫码关注期刊微信公众号)

微博ControlTheoryTech

Email:jcta@scut.edu.cn    

Tel:020-8711 1464

 2023-2024刊期合集 

Volume 22 (February - November 2024)

Issue 4, 2024

Issue 3, 2024 - Special issue on analysis and control of complex systems in honor of the 90th birthday of Professor Huashu Qin

Issue 2, 2024 - Special issue on system identification and estimation

Issue 1, 2024

Volume 21 (February - November 2023)

Issue 4, 2023

Issue 3, 2023 - Special issue on frontiers of control and automation, dedicated to Prof. Ben M. Chen 60th birthday

Issue 2, 2023

Issue 1, 2023 - Special issue on connecting theory and practice with ADRC

转载本文请联系原作者获取授权,同时请注明本文来自邹铁枫科学网博客。

链接地址:https://wap.sciencenet.cn/blog-3635716-1486687.html?mobile=1

收藏

分享到:

下一篇
当前推荐数:0
推荐到博客首页
网友评论0 条评论
确定删除指定的回复吗?
确定删除本博文吗?