Ouariel
基于分布式自适应内模的多智能体系统协同最优输出调节
2025-5-4 16:17
阅读:735

引用本文

 

董昱辰, 高伟男, 姜钟平. 基于分布式自适应内模的多智能体系统协同最优输出调节. 自动化学报, 2025, 51(3): 678691 doi: 10.16383/j.aas.c240371

Dong Yu-Chen, Gao Wei-Nan, Jiang Zhong-Ping. Cooperative optimal output regulation for multi-agent systems based on distributed adaptive internal model. Acta Automatica Sinica, 2025, 51(3): 678691 doi: 10.16383/j.aas.c240371

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c240371

 

关键词

 

自适应动态规划,分布式自适应内模,强化学习,协同输出调节,多智能体系统 

 

摘要

 

针对离散时间多智能体系统的协同最优输出调节问题, 在不依赖多智能体系统矩阵精确信息的条件下提出分布式数据驱动自适应控制策略. 基于自适应动态规划和分布式自适应内模, 通过引入值迭代和策略迭代两种强化学习算法, 利用在线数据学习最优控制器, 实现多智能体系统的协同输出调节. 考虑到跟随者只能访问领导者的估计值进行在线学习, 对闭环系统的稳定性和学习算法的收敛性进行严格的理论分析, 证明所学习的控制增益可以收敛到最优控制增益. 仿真结果验证了所提控制方法的有效性.

 

文章导读

 

20世纪70年代以来, 输出调节问题一直是控制系统的核心研究问题之一. 输出调节理论在机械臂操纵、卫星姿态控制和电机速度调节等方面已取得广泛应用[1−2]. 近二十年, 研究学者已将单一系统的输出调节问题推广至多智能体系统, 形成了协同输出调节问题[3−5]. 协同输出调节的控制目标是设计一种分布式控制器, 使得所有跟随者的输出都能渐近地跟踪参考信号, 同时抑制外部干扰. 在协同输出调节问题的研究中, 智能体通常可分成两组, 一组智能体能够直接获得领导者(外部系统)的信息, 而另一组智能体则无法直接获得领导者的信息. 协同输出调节理论在许多实际工程控制系统得以应用, 如自适应巡航控制系统、移动机器人系统、基于逆变器的孤岛微电网系统、分布式能源控制系统以及有源直流配电网络系统等[6−9].

 

内模原理是用来解决协同输出调节问题的主要方法之一[10−11]. 基于内模原理设计调节器时, 调节器需包含与外部系统相同的动力学模型, 即内模. 内模通过复制外部系统的信息生成前馈项, 以补偿系统中的稳态误差. 在利用内模原理解决系统的协同输出调节问题时, 需要将其转换为由受控系统和内模构成的增广系统的协同镇定问题. 针对离散时间多智能体系统协同的输出调节问题, 文献[12]基于有限激励条件的估计更新律来逼近外部系统模型参数, 进而建立在线分布式内模. 此外, 协同输出调节问题还可与事件触发控制[13]、容错控制[14]和弹性控制[15]等方法相结合, 以有效应对复杂系统中的控制需求.

 

在现代控制系统中, 控制器的设计不仅需要保证闭环系统实现输出调节, 还需对其瞬态性能进行优化, 以实现最优输出调节. 针对线性系统, 传统的最优控制问题通常需要求解代数黎卡提方程, 但求解过程相对复杂. 为简化这一过程, 值迭代[16−17]和策略迭代[18−19]通过更新值函数和控制器增益, 提供了一种逐步逼近代数黎卡提方程解的方法. 相比策略迭代, 值迭代放宽了对初始稳定策略的严格要求, 但这种灵活性也降低了算法的收敛速度. 此外, 在实际应用中, 系统的矩阵信息可能不确定或者完全未知, 这给控制器设计带来更大的挑战[20]. 为解决该问题, 自适应动态规划算法应运而生. 与依赖系统矩阵信息的方法不同, 自适应动态规划算法无需进行系统识别, 直接利用在线数据来设计控制器[21−23]. 文献[24]将自适应分布式观测器、强化学习和输出调节理论相结合, 针对一类具有部分未知动态的非线性离散时间多智能体系统, 设计分布式自适应近似最优跟踪控制器以实现协同自适应最优输出调节. 文献[25]针对跟随者系统矩阵信息未知的多智能体系统, 结合自适应动态规划和内模原理, 基于在线数据学习最优控制器. 值得注意的是, 在上述协同最优输出调节的研究中, 通常假设领导者的状态和系统矩阵信息可以被所有跟随者访问, 这在实际情况下难以满足[26−28]. 另外, 现有基于自适应动态规划的协同输出调节方法多考虑连续时间多智能体系统. 在所有跟随者无法直接访问领导者的真实状态和系统矩阵信息时, 针对离散时间多智能体系统的自适应最优协同输出调节研究尚显不足.

 

为解决离散时间多智能体系统矩阵信息完全未知情况下的协同最优输出调节问题, 本文分别基于策略迭代和值迭代提出数据驱动的自适应最优控制方法. 与现有方法相比, 本文方法的独特性和主要优势如下:

1) 目前关于离散时间协同输出调节控制器的设计方法大多依赖于精确或部分已知的系统模型. 与现有设计方法不同, 针对系统矩阵完全未知的离散时间多智能体系统, 本文基于内模原理、分布式控制和估计等技术, 创新性地设计了基于数据的分布式自适应最优控制器, 以实现离散多智能体系统的协同最优输出调节.

2) 在现有关于协同输出调节问题分布式控制器的学习过程中, 通常假设所有跟随者需实时测量领导者的真实状态. 然而在实际中, 这一假设往往不成立. 鉴于此, 本文考虑一种更为现实的情况, 即跟随者需要基于对领导者系统矩阵和状态的估计值进行在线学习. 针对这一问题, 本文分别基于策略迭代与值迭代, 提出自适应最优学习策略, 该策略能够在领导者真实状态未知且部分跟随者无法获得领导者系统矩阵的情况下, 实现协同最优的输出调节. 此外, 通过严格的收敛性分析, 证明了所学习的控制增益可以收敛至最优控制增益.

 1  网络拓扑

 11  本文提出的值迭代控制策略与其他控制策略下跟踪误差动态响应对比

 12  本文提出的策略迭代控制策略与其他控制策略下跟踪误差动态响应对比

 

本文提出基于分布式自适应内模的数据驱动控制策略, 有效解决了系统矩阵未知情况下离散时间多智能体系统的协同输出调节问题. 通过引入值迭代和策略迭代两种强化学习算法, 在不依赖多智能体系统矩阵的前提下, 利用在线数据和领导者状态的估计值学习最优控制器, 实现了多智能体系统的协同输出调节. 通过理论分析, 保证了闭环系统的稳定性和学习算法的收敛性. 本文所提出的方法要求被控对象为线性系统, 在未来, 我们将研究如何基于分布式自适应内模实现非线性离散时间多智能体系统的协同最优输出调节.

 

作者简介

 

董昱辰

东北大学流程工业综合自动化全国重点实验室博士研究生. 2023年获得河北工业大学人工智能与数据科学学院硕士学位. 主要研究方向为网络攻击, 强化学习, 数据驱动和弹性控制. E-mail: 2310268@stu.neu.edu.cn

 

高伟男

东北大学流程工业综合自动化全国重点实验室教授. 2017年获得美国纽约大学博士学位. 主要研究方向为人工智能, 自适应动态规划, 优化控制和输出调节. 本文通信作者. E-mail: gaown@mail.neu.edu.cn

 

姜钟平

欧洲科学院外籍院士, 美国纽约大学教授, IEEE Fellow, IFAC Fellow. 1993年获得法国巴黎高等矿业大学自动控制与数学博士学位. 主要研究方向为稳定性理论, 鲁棒/自适应/分布式非线性控制, 鲁棒自适应动态规划, 强化学习及其在信息, 机械和生物系统中的应用. E-mail: zjiang@nyu.edu

转载本文请联系原作者获取授权,同时请注明本文来自Ouariel科学网博客。

链接地址:https://wap.sciencenet.cn/blog-3291369-1484475.html?mobile=1

收藏

分享到:

当前推荐数:0
推荐到博客首页
网友评论0 条评论
确定删除指定的回复吗?
确定删除本博文吗?