Ouariel
基于自适应动态规划的量化通信下协同最优输出调节
2025-5-23 14:59
阅读:320

引用本文

 

王冰洁, 徐磊, 林宗利, 施阳, 杨涛. 基于自适应动态规划的量化通信下协同最优输出调节. 自动化学报, 2025, 51(4): 813823 doi: 10.16383/j.aas.c240494

Wang Bingjie, Xu Lei, Lin Zongli, Shi Yang, Yang Tao. Cooperative optimal output regulation under quantized communication based on adaptive dynamic programming. Acta Automatica Sinica, 2025, 51(4): 813823 doi: 10.16383/j.aas.c240494

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c240494

 

关键词

 

自适应动态规划,多智能体系统,输出调节,量化通信 

 

摘要

 

考虑了量化通信下多智能体系统的协同最优输出调节问题. 为降低通信负担, 利用取整量化器将智能体之间传输的浮点数数据转化为整数, 从而减少通信信道中传输数据的比特数. 通过将量化器引入编码−解码方案中, 设计分布式量化观测器, 保证在量化通信下, 每个跟随者对外部系统状态的估计误差渐近收敛至零. 在此基础上, 在多智能体系统动态未知的情况下, 提出基于自适应动态规划的数据驱动算法, 在线学习次优控制策略, 解决协同最优输出调节问题, 保证每个跟随者的输出信号渐近跟踪参考信号, 并抑制由外部系统产生的干扰信号. 最后, 在智能车联网自适应巡航控制系统上进行仿真实验并验证了所提方法的有效性. 结果表明与精确通信相比, 量化通信下比特数降低了58.33%.

 

文章导读

 

近年来, 多智能体系统的输出调节问题因其在自动驾驶车联网等领域的应用而引起广泛的关注[1−3]. 多智能体输出调节问题的目标是通过设计一种分布式控制策略, 实现每个跟随者的输出信号跟踪参考信号, 并抑制由外部系统描述的干扰信号[4−6]. 目前, 分布式控制策略的设计方法主要有两种: 前馈反馈方法[7−8]与内模原理方法[9−10]. 

 

此外, 在多智能体系统中, 智能体的通信通常受限于系统的通信拓扑结构, 智能体通常只能与邻居进行直接通信. 在领导跟随多智能体系统中, 跟随者为获得领导者的状态信息, 可通过设计分布式观测器进行估计[7, 11]. 在实际网络通信中, 通信信道的有限带宽在智能体之间的信息传输中不容忽视[14−18]. 为降低通信负担, 减少通信信道中传输数据的比特数, 一些学者通过设计量化器与编码解码方案来解决量化通信下多智能体系统的协同输出调节问题. 文献[19]利用对数量化器对控制输入进行量化, 并通过扇形约束方法来处理存在的量化误差. 文献[20]通过设计一种基于缩放函数策略的动态编码解码方案, 保证量化误差的收敛, 实现多智能体系统跟踪误差渐近收敛到零. 文献[21]将上述结果推广到具有切换拓扑图的多智能体系统上, 解决带有切换图的线性多智能体系统的量化协同输出调节问题. 值得注意的是, 上述研究中所设计的控制策略都是基于模型的, 这就要求每个智能体需要知道系统的模型信息. 然而, 由于通信带宽的固有限制和网络系统固有的脆弱性将导致如时间延迟、数据包丢失、信号量化以及网络攻击等现象的发生, 智能体难以完整获得整个系统的动态信息[22−24]. 

 

随着自适应动态规划的发展[25−28], 一种针对不确定动态系统的自适应控制方法应运而生, 其优势在于可以利用在线数据通过学习来逼近动态系统的控制策略, 而不必完全了解系统的动态信息, 为模型未知的协同输出调节问题提供新的解决方案. 近年来, 一些学者将最优控制理论与自适应动态规划方法进行结合[29−31], 通过数据驱动的方式求解最优/次优控制策略, 在保证闭环系统实现输出调节的同时, 最小化系统性能指标. 文献[3]利用前馈反馈方法设计分布式控制策略, 解决跟随者对领导者状态未知的多智能体系统的协同最优输出调节问题. 文献[32]构建分布式自适应内部模型来估计领导者的动态, 并提出基于策略迭代与值迭代的强化学习算法, 在线学习最优控制策略. 文献[33]针对包含外部系统在内的所有智能体动态未知的多智能体系统, 利用内模原理与自适应动态规划方法, 解决协同最优输出调节问题. 然而, 上述的这些研究并未考虑通信信道带宽有限的情况. 而在实际的工程应用中, 如智能交通系统中的自适应巡航控制等问题, 往往期望设计一种能在通信带宽有限且系统动力学未知情况下运行的数据驱动算法, 来实现多智能体系统间的协同最优输出调节, 这促使我们对这一问题进行研究

 

本文的主要贡献如下: 1) 通过引入均匀量化器, 设计分布式量化观测器来减少通信信道中传输数据的比特数, 降低多智能体间的通信负担. 同时, 将均匀量化器引入编码解码方案设计中, 消除量化误差对多智能体系统的影响, 保证每个跟随者对外部系统状态的估计误差渐近收敛至零. 2) 将分布式量化观测器的估计值引入次优控制策略的设计中, 在系统动态未知的情况下, 提出一种基于自适应动态规划的数据驱动算法, 在线学习次优控制策略, 解决量化通信下的协同最优输出调节问题. 3) 受文献[32]的启发, 在学习阶段, 本文考虑一个更一般的情况, 即跟随者系统只能通过观测器对领导者的状态进行估计, 而无法直接获得领导者的状态. 在这种情况下, 证明了学习到的控制器增益将收敛到最优控制增益的任意小邻域内. 与现有文献相比, 文献[32]需要智能体间的精确通信, 而本文中智能体间传输的为量化后的信息, 降低了多智能体间的通信负担, 并通过引入编码解码方案消除量化误差的影响, 实现量化通信下外部系统状态估计误差的渐近收敛. 文献[3, 34]不仅需要智能体间的精确通信, 并且需要假设每个跟随者系统都能够获得外部系统状态的实际值. 本文在学习阶段考虑一个更一般的情况, 跟随者系统可通过设计的分布式量化观测器对领导者的状态进行估计, 从而获得外部系统状态的估计值

 

本文其余部分安排如下. 1节介绍图论的基础知识以及相关符号说明; 2节介绍本文的问题描述; 3节设计量化通信下的分布式观测器; 4节提出自适应次优控制策略与自适应动态规划算法; 5节在智能车联网自适应巡航控制系统上验证理论结果; 6节总结本文的主要结果, 并提出未来的研究方向

 1  编码解码方案

 2  理论部分示意图

 3  车辆通信拓扑图

 

本文研究量化通信下系统动态未知的连续时间多智能体系统的协同最优输出调节问题. 通过引入均匀量化器与编码解码方案, 设计一种基于采样和量化数据的分布式协议, 用于观测外部系统状态, 在保证外部系统状态估计误差收敛的同时, 降低多智能体间的通信负担. 针对一类具有不确定系统动态的多智能体系统, 设计一种自适应动态规划方法, 用于多智能体系统的协同最优输出调节. 理论分析和在智能车联网自适应巡航控制系统上的仿真验证表明, 模型未知的多智能体系统能够在量化通信下实现渐近跟踪与干扰抑制. 我们未来的研究将考虑在有限带宽通信约束下, 针对外部系统状态与系统矩阵全部未知的非线性多智能体系统设计自适应最优控制策略

 

作者简介

 

王冰洁

东北大学流程工业综合自动化国家重点实验室博士研究生. 主要研究方向为自适应动态规划和网络控制系统. E-mail: 2210356@stu.neu.edu.cn

 

徐磊

东北大学流程工业综合自动化国家重点实验室博士研究生. 主要研究方向为分布式优化, 网络控制系统和事件触发控制. E-mail: 2010345@stu.neu.edu.cn

 

林宗利

美国弗吉尼亚大学电气和计算机工程系教授. 主要研究方向为非线性控制理论和控制理论应用.E-mail: zl5y@virginia.edu

 

施阳

加拿大维多利亚大学机械工程系教授. 主要研究方向为模型预测控制, 系统与控制和分布式控制系统. E-mail: yshi@uvic.ca

 

杨涛

东北大学流程工业综合自动化国家重点实验室教授. 主要研究方向为工业人工智能, 信息物理系统和分布式优化. 本文通信作者. E-mail: yangtao@mail.neu.edu.cn

转载本文请联系原作者获取授权,同时请注明本文来自Ouariel科学网博客。

链接地址:https://wap.sciencenet.cn/blog-3291369-1486916.html?mobile=1

收藏

分享到:

当前推荐数:0
推荐到博客首页
网友评论0 条评论
确定删除指定的回复吗?
确定删除本博文吗?