IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

未知非线性零和博弈最优跟踪的事件触发控制设计

已有 1845 次阅读 2023-1-17 09:14 |系统分类:博客资讯

引用本文

 

王鼎, 胡凌治, 赵明明, 哈明鸣, 乔俊飞. 未知非线性零和博弈最优跟踪的事件触发控制设计. 自动化学报, 2023, 49(1): 91−101 doi: 10.16383/j.aas.c220378

Wang Ding, Hu Ling-Zhi, Zhao Ming-Ming, Ha Ming-Ming, Qiao Jun-Fei. Event-triggered control design for optimal tracking of unknown nonlinear zero-sum games. Acta Automatica Sinica, 2023, 49(1): 91−101 doi: 10.16383/j.aas.c220378

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c220378

 

关键词

 

自适应评判设计,事件触发控制,神经网络,最优跟踪控制,稳定性分析,零和博弈 

 

摘要

 

设计了一种基于事件的迭代自适应评判算法, 用于解决一类非仿射系统的零和博弈最优跟踪控制问题. 通过数值求解方法得到参考轨迹的稳定控制, 进而将未知非线性系统的零和博弈最优跟踪控制问题转化为误差系统的最优调节问题. 为了保证闭环系统在具有良好控制性能的基础上有效地提高资源利用率, 引入一个合适的事件触发条件来获得阶段性更新的跟踪策略对. 然后, 根据设计的触发条件, 采用Lyapunov方法证明误差系统的渐近稳定性. 接着, 通过构建四个神经网络, 来促进所提算法的实现. 为了提高目标轨迹对应稳定控制的精度, 采用模型网络直接逼近未知系统函数而不是误差动态系统. 构建评判网络、执行网络和扰动网络用于近似迭代代价函数和迭代跟踪策略对. 最后, 通过两个仿真实例, 验证该控制方法的可行性和有效性.

 

文章导读

 

在实际应用中, 外部干扰带来的困难总是存在的, 因此在设计控制器时不可避免地需要考虑扰动[1]. H∞最优控制作为鲁棒最优控制方法的一个重要分支, 在抑制外界扰动对系统性能的影响方面得到了广泛的关注[2-4]. 二人零和博弈作为H∞最优控制的特有形式, 其核心思想是要求控制输入使得代价函数最小化并且扰动信号使得代价函数最大化. 近年来, 对于非线性零和博弈的最优控制问题, 学者们大多通过求解相应的Hamilton-Jacobi-Isaacs方程, 这比求解Hamilton-Jacobi-Bellman方程更加困难[5]. 到目前为止, 尚缺乏有效的方法来得到解析解. 受到强化学习方法的启示, Werbos 在文献[6]中提出了一种自适应能力强的自适应动态规划(Adaptive dynamic programming, ADP)方法. 该方法能够获得一般情况下令人满意的Hamilton-Jacobi-Isaacs方程的数值解. 由于ADP的智能属性, 使得相关的方法受到了广泛的关注[7-15]. ADP算法在实现过程中常见的两种结构形式为: 启发式动态规划和双重启发式动态规划. 此外, ADP算法在迭代方面可分为值迭代[7-8]和策略迭代[9-10]两类. 值迭代算法从任意半正定初始代价函数出发, 不需要初始稳定控制策略. 值得注意的是这个初始代价函数通常设为零, 使得值迭代算法更容易实现. 策略迭代算法需要从初始稳定控制律开始, 逐步改进控制策略以达到最优控制律. 到目前为止, 已有大量工作通过采用ADP方法解决各种控制问题, 例如约束控制[11]、最优跟踪控制[12]、鲁棒控制[13]和事件触发控制[14], 这充分彰显了ADP算法的适用性和巨大潜力. 特别地, 文献[8]首次分析了启发式动态规划框架下值迭代算法的收敛性. 文献[15]研究了一种带有折扣不确定非线性动态系统的代价保证自适应最优反馈镇定问题. 在本文中, 将采用迭代ADP算法来获得零和博弈跟踪控制下的近似最优策略对.

 

近几十年来, 非线性系统的最优控制问题一直是控制工程领域的研究热点. 众所周知, 最优控制问题可以分为最优跟踪[16]和最优调节[17]两大类, 其中, 最优跟踪的实质是使系统的状态跟踪上预设的参考轨迹, 而最优调节的实质是使状态最终收敛到平衡点. 如今, ADP算法已被广泛应用于解决最优轨迹跟踪问题. 文献[18]针对离散时间非线性系统的迭代启发式动态规划算法设计了一个性能指标, 用于解决无限时域最优轨迹跟踪问题. 文献[12]设计了基于执行-评判框架的局部无模型控制器, 用于在线控制系统状态跟踪上目标轨迹. 文献[19]通过转换代价函数, 设计一种新型的跟踪控制方法用于消除跟踪误差. 值得注意的是, 上述方法更倾向于控制模型已知的仿射系统, 而对于模型未知的非仿射系统却难以获得良好的控制效果. 为了有效地解决非仿射系统的跟踪控制问题, 文献[20]基于迭代双重启发式动态规划算法设计了一种数值计算的方法来获得目标轨迹的稳定控制. 在实际应用方面, 文献[21]设计了一种基于折扣广义值迭代的智能算法用于跟踪控制污水处理过程中溶解氧和硝态氮的质量浓度. 如今, 通过采用ADP算法解决轨迹跟踪问题已经得到了广泛的研究. 然而, 对于未知非线性系统零和博弈跟踪控制问题的研究却很少. 在本文中, 将采用数值计算方法求解目标轨迹的稳定控制, 然后根据这个稳定控制来获得跟踪控制律和跟踪扰动律, 进而解决未知非线性系统的零和博弈跟踪控制问题.

 

在系统稳定控制的基础上, 能源损耗问题已经逐渐成为工业发展的焦点之一. 事件触发控制通过设计一个合适的事件触发条件, 在这个预定义的条件被违反时对系统状态进行采样. 由于与传统的周期性时间触发控制相比, 事件触发控制能够减少控制所需的通信量和计算资源, 因此这种控制模式特别适合于嵌入式系统和网络控制系统[22]. 在事件触发控制过程中, 控制器并不是以连续的方式更新控制律, 而是在控制系统的离散采样时刻瞬间进行更新. 然而, 在两个连续的采样时刻之间存在着最大允许传输间隔, 为了达到预期的性能, 触发间隔通常选择在允许范围之内. 为此, 相关研究者在提出各种事件触发控制方法上做出了大量贡献[22-27]. 文献[23]设计了一种基于事件的近似最优控制器用于解决离散时间非仿射系统的控制约束问题. 文献[24]针对一类仿射离散时间非线性系统, 设计了一种次优的事件触发条件. 文献[25]针对未知非线性系统设计了一种基于事件的迭代自学习控制器, 并从输入到状态稳定性(Input-to-state stability, ISS) 的角度分析了闭环系统的稳定性. 文献[26]和文献[27]采用基于启发式动态规划框架的事件触发控制方法分别解决了离散时间系统和连续时间系统的最优调节问题. 到目前为止, 还没有采用迭代自适应评判的事件触发控制方法解决离散时间未知非线性系统零和博弈跟踪控制问题的结果.

 

基于此, 本文针对离散时间未知非线性系统设计一种基于事件的近似最优轨迹跟踪算法, 目的在于解决零和博弈轨迹跟踪控制问题并减少计算量. 为了更容易获得近似最优跟踪策略对, 采用迭代自适应评判方法将最优跟踪控制问题转化为最优调节问题. 然后, 设计一个合适的事件触发条件对跟踪策略对进行阶段性更新. 值得注意的是, 事件触发的引入可能导致系统不稳定. 因此, 本文将采用ISS-Lyapunov方法证明被控误差系统是渐近稳定的. 最后, 通过两个仿真实例验证了本文提出算法的有效性.

 1  基于事件的零和博弈跟踪控制方法示意图

 2  模型网络训练误差 (1)

 3  系统状态、控制律和扰动律轨迹(1)

 

针对未知非线性系统的零和博弈轨迹跟踪问题, 提出了一种基于迭代自适应评判的事件触发控制方法, 极大地减少了计算量. 首先, 通过建立模型网络得到参考轨迹的稳定控制, 进而将轨迹跟踪问题转化为误差系统的最优调节问题. 然后, 设计一个合适的事件触发条件, 并证明了基于事件的误差系统是渐近稳定的. 最后, 通过两个仿真实例验证了所提算法的可行性和有效性. 目前的研究主要是在理论方向, 将该方法扩展到实际应用场景是未来的工作, 包括基于所提跟踪算法控制污水处理过程中溶解氧和硝态氮的质量浓度.

 

作者简介

 

王鼎

北京工业大学信息学部教授. 2009年获得东北大学硕士学位, 2012年获得中国科学院自动化研究所博士学位. 主要研究方向为强化学习与智能控制. 本文通信作者. E-mail: dingwang@bjut.edu.cn

 

胡凌治

北京工业大学信息学部硕士研究生. 主要研究方向为强化学习和智能控制. E-mail: hulingzhi@email s.bjut.edu.cn

 

赵明明

北京工业大学信息学部博士研究生. 主要研究方向为强化学习和智能控制. E-mail: zhaomm@emails.bjut.edu.cn

 

哈明鸣

北京科技大学自动化与电气工程学院博士研究生. 分别于2016年和2019年获得北京科技大学学士和硕士学位. 主要研究方向为最优控制, 自适应动态规划和强化学习. E-mail: hamingming_0705@foxmail.com

 

乔俊飞

北京工业大学信息学部教授. 主要研究方向为污水处理过程智能控制和神经网络结构设计与优化. E-mail: adqiao@bjut.edu.cn



https://wap.sciencenet.cn/blog-3291369-1372270.html

上一篇:基于深度学习LDAMP网络的量子状态估计
下一篇:基于拓扑一致性对抗互学习的知识蒸馏
收藏 IP: 222.131.247.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-16 00:36

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部