Ouariel的个人博客分享 http://blog.sciencenet.cn/u/Ouariel

博文

基于变分稀疏高斯过程的多机器人协同感知与围捕

已有 431 次阅读 2025-5-16 17:10 |系统分类:博客资讯

引用本文

 

曹凯, 陈阳泉, 魏云博, 刘志, 陈超波, 高嵩. 基于变分稀疏高斯过程的多机器人协同感知与围捕. 自动化学报, 2025, 51(4): 778791 doi: 10.16383/j.aas.c240406

Cao Kai, Chen Yang-Quan, Wei Yun-Bo, Liu Zhi, Chen Chao-Bo, Gao Song. Multi-robot collaborative perception and capture based on variational sparse Gaussian process. Acta Automatica Sinica, 2025, 51(4): 778791 doi: 10.16383/j.aas.c240406

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c240406

 

关键词

 

多机器人,质心维诺划分,变分稀疏高斯过程回归,围捕,协同感知 

 

摘要

 

针对未知环境下的多机器人环境感知和围捕问题, 提出一种基于变分稀疏高斯过程回归的分布式感知与围捕算法. 考虑到传统高斯过程回归不适合处理大量数据的问题, 在这项工作中, 首先考虑障碍物的影响, 以引入分离超平面的质心维诺划分算法为机器人动态规划任务区域; 其次, 利用多机器人在任务区域中的移动探索获取环境信息, 并通过变分自由方法来近似模型的后验分布, 完成对未知环境的感知; 最后, 基于粒子群优算法为围捕机器人动态分配围捕点, 实现多机器人的全方位均匀围捕. 通过仿真实验证明, 该算法能够适用于单源、多源以及动态源的围捕, 且能够在保证多机器人编队安全性的同时, 实现较高的迭代速度, 最终成功实现均匀围捕.

 

文章导读

 

由于单体机器人处理复杂任务的能力通常被认为是有限的, 而群体机器人系统由于其可协作的特殊性, 能够完成更为复杂的任务[1], 因此常被应用于协同围捕的研究中, 其核心是多个个体能力有限的机器人通过协同以完成对危险目标的捕获或控制. 然而, 传统的研究对于围捕目标的位置信息往往都是先验的, 只需驱动相应的算法对目标实现包围即可完成任务[2-3]. 但是面对目标位置未知的污染源时, 机器人需要对所处环境进行感知, 搜索目标源所发出的场源信息, 进而完成围捕任务. 因此, 本文主要关注在围捕目标位置信息未知的情况下, 通过机器人协同感知环境信息主动获取围捕目标位置点, 完成围捕任务的问题, 从而为最终的捕获和处置奠定基础

 

针对多机器人协同感知源定位的问题, 目前已经有广泛的研究. 以多机器人为载体的集群感知研究主要有密度梯度[4]、信息熵[5-6]或贝叶斯[7-8]等基础方法. 许多研究者在基础的方法上进行了改进, Jabeen[9]提出一种基于梯度策略和概率搜索方法相结合的元启发式算法, 对污染源进行感知定位, 其中的梯度方法用于无人机的导航和跟踪, 而概率搜索则用于估计污染源的位置, 两种方法的结合极大地减少了无人机感知搜索源的时间与区域. 但梯度方法容易陷入局部最优解, 特别是在复杂的环境中, 可能导致机器人无法找到全局最优解, 从而影响感知与定位的准确性和效率. 因此, 一些学者使用深度强化学习(Deep reinforcement learning, DRL)方法来指导机器人的运动. 在不依赖先验地图的条件下, 让机器人与环境进行交互感知, 通过探索和利用环境反馈来学习最佳的污染源定位策略. Li[10]提出一种基于DRL的室内气味源定位方法, 该方法将气味源定位问题建模为马尔科夫决策过程, 并设计状态空间、动作空间和密集奖励来解决稀疏奖励问题, 最后通过近端策略优化(Proximal policy optimization, PPO)算法来生成机器人的最优决策. 该方法在室内模拟环境中有效, 但其在室外环境或其他复杂场景下的泛化能力尚未得到充分测试, 算法在现实世界快速变化环境中的适应性和稳定性有限. Latif[11]设计了一种全新的源搜索方法, 即粒子簇深度Q网络(Particle cluster-deep Q-network, PC-DQN), 首次将DRL作为源搜索方法. 具体来说, 搜索过程被表述为部分可观察的马尔科夫决策过程, 然后根据置信状态(由粒子滤波器表示)转换为马尔科夫决策过程. PC-DQN利用基于密度的噪声应用空间聚类(Density-based spatial clustering of applications with noise, DBSCAN)算法提取置信状态特征, 并采用深度Q网络(Deep Q-network, DQN)算法为源搜索任务寻找最优策略, 其中还引入了迁移学习概念, 将训练有素的Q网络重用到新场景中. 然而PC-DQN方法的不足之处在于DQN算法通常需要大量的计算资源, 特别是在处理高维状态空间时, 会导致其搜索性能在实时或快速响应的应用场景中受到限制. Liao[12] 提出一种无模型梯度自适应极值寻距控制(Gradient adaptive extremum seeking control, GA-ESC)算法, 以提高气味源定位(Odor source localization, OSL)的搜索效率和成功率. GA-ESC算法通过控制器规划OSL, 控制器估计气味羽流浓度的梯度, 并根据估计的梯度引导机器人接近气味源. 采用自适应反馈增益将估计梯度与输出控制量联系起来, 从而获得更稳定的气味场梯度. 随后, 引入扰动幅度调整(Perturbation amplitude adjustment, PAA)策略, 以增强全局搜索能力. 但文献[10-12]的方法实验场景单一, 算法的适应性、实时性以及鲁棒性也有待提高

 

在感知到围捕目标的位置信息之后, 需要采取相应的策略对目标点进行围捕, 目前已存在许多有关围捕的方法, 其中包括强化学习[13-14]、人工势场[15]Voronoi划分[16-17]等方法. 强化学习的围捕方法能够自主学习并处理复杂的多机器人围捕任务, 同时具有长期规划的能力. Li[18]研究了一种基于深度强化学习的多无人机协同围捕算法, 提出一种新的多无人机智能决策控制方法, 使多无人机能够在复杂环境中实现协同决策和围捕, 但该方法缺少实际的无人机应用考虑. 而利用人工势场的围捕方法则是一种基于局部信息的路径规划技术, 它通过在目标点周围构建引力势场和在障碍物周围构建斥力势场来引导机器人的运动. 这种方法简单、高效, 但存在一些局限性, 如容易陷入局部最优解或与障碍物碰撞等. 为解决这些问题, Zhao[19]研究了一种基于动态速度势场的协同围捕算法, 利用一种新的吸引和排斥模型, 通过引入速度信息, 使机器人倾向于选择更短且安全的路径. 但是该方法的实时性和在真实环境中对多目标的处理方面还有待提高. Fu[20]则利用人工势函数解决了为围捕者制定合作策略并为被围捕者制定边界限制的问题, 在围捕者之间引入动态排斥力以增强其合作能力, 提升了任务处理的实时性, 但该策略在计算上较为复杂, 限制了它们在资源受限的移动机器人平台上的实时应用. 受到Voronoi图的启发, 基于Voronoi的围捕策略具有灵活性高和鲁棒性强的优点, Tian[21]则提出一种基于缓冲Voronoi区域的贪婪追捕策略, 使多个追击者能够在障碍物环境中完成对逃逸者的捕获, 但该方法仅适用于二维场景和单个目标的场景. 针对此问题, Cao[22]提出一种全向最小体积3D-Voronoi算法, 将环境扩展到三维场景, 同时利用最小体积策略实现对动态目标和多目标的围捕. 但上述的围捕方法都没有考虑围捕者可以感知目标发出的场信息, 并逆向搜索的围捕方案. 我们采用6个指标对捕获的类型进行分类: 单个或多个机器人; 单个或多个目标; 动态或静态目标; 2D3D; 是否感知场源信息; 是否有实验验证. 指标和主要相关工作见表1. 

 

因此, 本文提出一个新的框架, 采用变分稀疏高斯过程回归的分布式学习感知与围捕算法, 考虑障碍物的影响, 引入分离超平面的质心维诺划分(Centroidal Voronoi tessinations, CVT)算法为机器人动态规划任务区域并探索和获取环境信息, 之后通过变分自由能方法来近似模型的后验分布, 完成对未知环境的感知, 同时结合粒子群优化(Particle swarm optimization, PSO)算法最终成功实现均匀围捕. 机器人是通过自主决策来完成既定任务, 总体框架如图1所示

 1  总体框架概述

 

本文其余部分的结构如下: 1节介绍多机器人安全编队控制的基本理论; 2节提出一种基于变分稀疏高斯过程回归的多机器人环境感知算法, 并通过构造李雅普诺夫函数证明系统的稳定性; 3节对本文所用的围捕策略进行介绍; 4节给出相应的仿真结果, 并进行分析; 5节通过设置无人机实验验证了算法的有效性; 结论与展望见第6

 2  避碰维诺单元

 3  对污染源的均匀围捕策略

 

针对在未知环境中多机器人环境感知和目标源围捕效率不足的问题, 结合VS-GPR方法和改进的CVT算法, 提出了一种基于变分稀疏高斯过程回归的多机器人协同感知与围捕方法. 首先利用SVM方法动态规划多机器人任务区域, 避免机器人与障碍物之间的碰撞, 其次利用VS-GPR算法有效提高了多机器人在未知场源下的感知效率, 并利用粒子群优化算法对目标实现全方位均匀围捕. Matlab仿真环境与实验室真实场景下对所提出协同感知与围捕算法进行了验证, 具体结论如下

1) 算法通过SVM的分离超平面方法保证多机器人编队避障的同时实现较高的围捕效率, 并且通过PSO算法完成对目标源的均匀围捕

2) 在单污染源围捕中, 将本文所提VS-GPR算法与ODMV围捕算法进行了对比, 本文方法搜索效率更高、围捕效果更好, 具有显著的性能提升

3) 在多污染源围捕中, VS-GPR算法在2个至5个污染源的仿真环境下进行了比较, 本文方法完成围捕的迭代时间并没有显著的增加, 并且每个污染源都分配有围捕机器人, 该算法较好地适应了多污染源的情况

4) 在动态源围捕方面, 本文所提出的方法展现了良好的围捕能力, 实现了对直线运动污染源围捕的仿真

 

本文在多机器人协同感知与围捕方面进行探索研究, 所研究的污染源特征是呈高斯分布的, 未来将在此基础上进行烟羽扩散场源的感知, 及增加围捕机器人与目标源的博弈策略研究

 

作者简介

 

曹凯

西安工业大学电子信息工程学院副教授. 主要研究方向为自主系统与智能控制, 机器人集群, 多机器人协同控制和源定位. E-mail: caokai@xatu.edu.cn

 

陈阳泉

加州大学默塞德分校教授. 主要研究方向为机电一体化, 分数阶系统, 智能控制, 信息物理系统和无人机. E-mail: ychen53@ucmerced.edu

 

魏云博

西安工业大学电子信息工程学院硕士研究生. 主要研究方向为多智能体集群控制. E-mail: weiyunbo@st.xatu.edu.cn

 

刘志

西安工业大学电子信息工程学院硕士研究生. 主要研究方向为多机器人编队控制. E-mail: liuzhi@st.xatu.edu.cn

 

陈超波

西安工业大学电子信息工程学院教授. 主要研究方向为智能控制, 分数阶系统, 故障诊断与容错控制. E-mail: chenchaobo@xatu.edu.cn

 

高嵩

西安工业大学电子信息工程学院教授. 主要研究方向为自主智能与无人系统, 目标探测与识别和智能巡检系统. 本文通信作者. E-mail: gaos@xatu.edu.cn



https://wap.sciencenet.cn/blog-3291369-1485972.html

上一篇:《自动化学报》2025年51卷4期目录分享
收藏 IP: 150.242.79.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-5-17 07:42

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部