|
引用本文
王耀南, 华和安, 张辉, 钟杭, 樊叶心, 梁鸿涛, 常浩, 方勇纯. 性能函数引导的无人机集群深度强化学习控制方法. 自动化学报, 2025, 51(5): 905−916 doi: 10.16383/j.aas.c240519
Wang Yao-Nan, Hua He-An, Zhang Hui, Zhong Hang, Fan Ye-Xin, Liang Hong-Tao, Chang Hao, Fang Yong-Chun. Performance function-guided deep reinforcement learning control for UAV swarm. Acta Automatica Sinica, 2025, 51(5): 905−916 doi: 10.16383/j.aas.c240519
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c240519
关键词
无人机集群,深度强化学习,引导式学习,智能编队控制
摘要
针对无人机集群系统, 提出一种性能函数引导的深度强化学习控制方法, 同时评估性能函数的示范经验与学习策略的探索动作, 保证高效可靠的策略更新, 实现无人机集群系统的高性能控制. 首先, 利用领航–跟随集群框架, 将无人机集群的控制问题转化为领航–跟随框架下的跟踪问题, 进而提出基于模型的跟踪控制方法, 利用性能函数将集群编队误差约束在给定范围内, 实现无人机集群的模型驱动控制. 接下来, 为解决复杂工况下性能函数极易失效难题, 将深度强化学习方法和性能函数驱动方法结合, 提出性能函数引导的深度强化学习控制方法, 利用性能函数的示范经验辅助训练强化学习网络, 通过同时评估探索与示范动作, 保证学习策略显著优于性能函数驱动控制方法, 有效提高无人机编队控制精度与鲁棒性. 实验结果表明, 该方法能够显著提升无人机集群的控制性能, 实现兼顾鲁棒性与飞行精度的高性能集群控制.
文章导读
随着机器人与人工智能技术的发展, 无人机(Unmanned aerial vehicle, UAV)以其低速飞行、机动性强、灵活性高等优势得到广泛应用[1−3]. 无人机集群的可扩展性高, 可执行大规模复杂任务, 相关研究受到学术界和产业界的广泛关注[4−6]. 为安全高效精准地完成既定任务, 集群控制算法至关重要. 然而, 考虑到无人机的非线性特性、开环不稳定和欠驱动特性, 设计有效的集群控制算法极具挑战. 尤其是无人机集群的任务复杂多变, 经常面临动态场景、复杂干扰等极端情况[7]. 因此, 设计智能高效的集群控制策略, 保证无人机间的高效协作, 具有重大的理论和实践意义. 为此, 国内外研究人员已经提出许多标志性的控制方法[8−11], 包括基于行为的集群控制、虚拟结构法、领航–跟随法、人工势场法、一致性方法等, 实现了有效的无人机集群控制, 其中的领航–跟随法以其出色的集群控制精度、策略扩展性等优势得到广泛研究.
为实现精准的领航–跟随集群控制, 研究人员提出许多可行的模型驱动控制策略[12−14], 其核心思想是充分利用无人机集群系统的动力学模型, 在此基础上设计领航–跟随控制方法, 并对设计的闭环系统进行稳定性分析. 例如, 文献[14]提出一种分布式领航–跟随控制算法, 并基于Lyapunov理论证明了闭环系统的渐近稳定性. 文献[15]考虑无人机集群模型中的非线性特性、参数扰动、通讯延迟、外部干扰等因素, 设计位置与姿态控制器, 实现无人机集群的鲁棒编队. 进而, 文献[16]针对无人机集群中的时变通讯延迟, 设计分布式编队控制协议, 证明了编队误差将在有限时间内收敛. 此外, 为进一步约束集群控制误差, 文献[17]通过构造编队误差边界, 提出一种预设性能的自适应编队控制方法, 通过设计障碍Lyapunov函数, 将集群系统状态始终约束在预定范围内. 尽管上述模型驱动的集群控制方法已实现无人机的编队控制, 但是面向实际应用, 仍有许多关键问题亟待解决. 首先, 尽管利用无人机集群系统的动力学模型, 可以设计闭环系统稳定的集群编队控制方法, 但是集群控制中的一些关键指标仍没有得到保证, 特别是集群的控制误差可能超出安全范围, 引发事故. 其次, 基于障碍函数的控制方法能够将集群误差抑制在给定范围内, 但是在逼近约束边界时其控制输出面临饱和风险, 存在控制失效、闭环系统崩溃等安全隐患.
随着人工智能技术的发展, 学习驱动的机器人技术研究受到越来越多研究人员的关注[18−21]. 不同于模型驱动的集群控制方法, 深度学习驱动的控制设计利用海量数据训练得到的控制策略, 具有很强的适应性和灵活性[22−24]. 其中, 深度强化学习通过与环境的试错交互, 利用最大化奖励函数寻找最优控制策略, 已经成功应用于多种机器人控制. 例如, 文献[25]提出一种旋翼无人机深度强化学习控制方法, 通过设计学习网络, 以无人机状态作为输入, 直接控制无人机驱动器, 实现高效控制. 文献[26]将注意力机制引入深度强化学习, 解决多智能体高效合作问题. 利用好奇心机制, 文献[27]提出一种好奇心驱动的深度强化学习控制方法, 实现无人机机动飞行. 此外, 通过引入积分补偿输入, 文献[28]设计深度强化学习无人机控制方法, 提高稳态控制精度. 文献[29]采用深度强化学习与领航–跟随框架相结合的设计方法, 提出一种编队控制方法, 实现无人机集群高效编队. 为进一步提高无人机学习控制的可靠性, 通过引入模型的先验信息设计的深度强化学习控制策略能兼顾学习效率与控制精度. 例如, 文献[30]设计的混合深度强化学习控制方法, 将基于模型的设计与学习策略线性组合, 以减少复杂的不确定因素对无人机的影响. 此外, 文献[31]提出一种模型预测控制与深度强化学习相结合的控制方法, 利用学习策略补偿未建模动态. 尽管上述学习驱动的无人机控制方法实现了无人机的飞行控制, 但是仍有许多关键问题亟待解决. 一方面, 深度强化学习通过与环境的试错交互, 学习到收敛的控制策略. 但是, 无人机集群的复杂非线性动力学, 加之执行任务时面临的动态场景、复杂干扰等极端情况, 深度强化学习策略难以同时应对上述挑战, 往往无法探索到安全且可靠的集群控制策略. 另一方面, 几乎所有的深度强化学习算法都没有考虑集群控制中的误差约束等关键指标, 在训练过程中没有充分利用无人机集群系统的动力学模型先验信息, 导致得到的学习控制策略没有安全保障, 极端环境中极易失效.
针对上述问题, 本文提出性能函数引导的深度强化学习无人机集群控制方法. 具体而言, 通过构造无人机集群编队误差边界, 设计性能函数将系统状态约束在预定边界内. 然后, 设计双critic架构的深度强化学习网络架构, 并引入性能函数的示范经验, 通过同时评价学习策略的随机探索动作与性能函数的示范输出, 实现对探索动作的精准判断. 在此基础上, 使用显著优于示范经验的探索动作更新策略, 有效提高无人机编队控制精度与鲁棒性. 最后, 通过集群飞行实验验证了所提方法的有效性. 本文的主要贡献总结如下:
1)针对无人机集群系统, 提出一种性能函数引导的深度强化学习控制方法, 提高集群系统的飞行控制精度与鲁棒性;
2)使用性能函数的示范经验, 引导深度强化学习策略探索更好的控制策略, 对训练过程中的探索动作实现准确评价;
3)实验结果表明所提的性能函数引导的深度强化学习控制方法能够实现准确的动作评价、高效的策略更新和精准的集群控制.
本文接下来的内容如下: 在第1节中介绍无人机动力学模型, 并且介绍领航–跟随编队控制框架; 在第2节中设计性能函数驱动的编队控制引导策略, 提出性能函数引导的控制算法, 并在此基础上针对提出的引导深度强化学习策略, 设计训练–评估算法; 在第3节中设计集群飞行的仿真实验, 验证方法的可行性和有效性; 最后, 在第4节中总结本文内容.
图 1 无人机领航–跟随编队模型示意图
图 2 性能函数引导的深度强化学习集群控制框架
图 3 性能函数驱动的集群控制引导策略框架
针对无人机集群控制问题, 本文提出一种性能函数引导的深度强化学习控制方法, 形成的模型–数据混合驱动的控制策略, 保证了高性能集群控制. 首先, 在领航–跟随集群框架基础上, 设计性能函数驱动的集群控制方法, 将集群误差约束在预期范围内. 在此基础上, 设计性能函数引导的深度强化学习控制策略, 利用性能函数的示范经验, 辅助训练学习网络, 解决性能函数在复杂工况下极易失效的安全隐患, 同时极大提升了学习策略的训练效率与可靠性. 将无人机系统的先验模型与深度强化学习策略结合, 设计性能函数驱动的学习控制策略, 充分利用非线性控制与深度强化学习的优势, 增强无人机集群的鲁棒性, 提高飞行精度. 最后, 将所提出的算法部署在ROS无人机集群平台上, 实验结果验证了性能函数驱动的深度强化学习算法的有效性.
作者简介
王耀南
中国工程院院士, 湖南大学电气与信息工程学院教授. 主要研究方向为机器人学, 智能控制和图像处理. E-mail: yaonan@hnu.edu.cn
华和安
湖南大学机器人学院助理教授. 主要研究方向为空中机器人的智能规划、控制与集群. E-mail: huahean@hnu.edu.cn
张辉
湖南大学机器人学院教授. 主要研究方向为机器视觉, 图像处理和机器人控制. 本文通信作者. E-mail: zhanghui1983@hnu.edu.cn
钟杭
湖南大学机器人学院副教授. 主要研究方向为机器人控制, 视觉伺服和路径规划. E-mail: zhonghang@hnu.edu.cn
樊叶心
湖南大学机器人学院博士后. 主要研究方向为机器人感知与控制, 深度强化学习及运动规划. E-mail: yexinfan@hnu.edu.cn
梁鸿涛
湖南大学电气与信息工程学院博士研究生. 主要研究方向为空中机器人集群运动控制与路径规划. E-mail: lianghongtao1@hnu.edu.cn
常浩
湖南大学电气与信息工程学院博士研究生. 主要研究方向为空中机器人的视觉感知与路径规划. E-mail: changhao@hnu.edu.cn
方勇纯
南开大学机器人与信息自动化研究所教授. 主要研究方向为非线性控制, 机器人视觉伺服控制, 欠驱动系统控制和基于原子力显微镜的纳米系统.E-mail: fangyc@nankai.edu.cn
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-6-12 20:30
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社