博文

南洋理工大学肖佳平等 | 基于深度强化学习的异构机器人系统目标搜索与导航

已有 135 次阅读 2025-9-25 08:51 |个人分类:好文推荐|系统分类:论文交流

新新标签.jpg

协作式异构机器人系统可以极大提高目标搜索与导航任务的效率。本文设计了一个由无人机(UAV)和无人地面车辆(UGV)组成的异构机器人系统，用于在未知环境中的搜救任务。文章第一作者为美国阿拉巴马大学陈昀博士，通讯作者为新加坡南洋理工大学肖佳平研究员。该为所提系统能够通过深度强化学习算法学习策略，在类似迷宫的矿井环境中搜索目标并导航至目标。在训练过程中，如果同时训练两个机器人，与它们协作相关的奖励可能无法正确获取。因此，研究引入了多阶段强化学习框架和好奇心模块，以鼓励智能体探索未访问的环境。仿真环境中的实验表明，该框架能够训练异构机器人系统在目标位置未知的情况下实现搜索与导航，而现有的基线方法则可能无法做到。UGV在原始环境中的任务成功率达到89.1%，并在未经训练的复杂环境中保持了67.6%的成功率。

题目.jpg

图片来自Springer

全文下载：

Target Search and Navigation in Heterogeneous Robot Systems with Deep Reinforcement Learning

Yun Chen & Jiaping Xiao

https://link.springer.com/article/10.1007/s11633-024-1512-6

https://www.mi-research.net/article/doi/10.1007/s11633-024-1512-6

全文导读

随着自动化和人工智能的发展，移动机器人的研究取得了重大突破，并已应用于各个领域。目前，移动机器人被广泛应用于搜索与救援(SAR)场景，因为它们可以帮助探索未知和复杂的环境，提高救援效率，同时减少救援人员的工作量。先进的计算机视觉技术进一步增强了这些机器人的能力，使其能够进行更复杂的避障和环境交互。

在地下矿井环境(发生矿难时)中，大部分环境信息是未知的，移动机器人的视野因存在许多障碍物而受阻，且地下环境信号微弱，使得人工远程控制无法完成搜救任务。因此，在此环境中，机器人需要具备自主完成任务的能力。然而，在这种未知且复杂的环境中，无人地面车辆(UGV)在定位方面存在显著局限性，对复杂地形的感知能力差，只能执行局部路径规划。这些缺点使得难以快速搜索受害者并开展救援行动。为了应对这些挑战，激光雷达技术已被集成到移动机器人系统中。激光雷达提供精确的距离数据和3D点云，这对于在低能见度、信号差的条件下进行空间感知和障碍物检测至关重要，从而增强了路径规划和导航能力。另一方面，无人机(UAV)面临续航能力有限和无法携带大量设备的限制。为了克服这些挑战，使用空地机器人系统来增强其感知和操作能力是一种有效的方法。空地机器人系统由UGV和UAV组成。通过信息交换和协作行为，它可以极大提高仅使用UGV的系统在复杂未知环境中的导航和避障能力。

通常，机器人导航问题涉及确定从自身到目标位置的无碰撞路径，同时最小化导航路径的成本。现有的优化导航方法通常分为全局导航方法和局部导航方法。常见的全局导航方法包括A*、快速探索随机树(RRT)等，而局部导航方法包括人工势场(APF)法、动态窗口法(DWA)等。其他启发式方法包括神经网络(NN)、模糊逻辑、遗传算法(GA)等。全局导航方法需要预先了解整个环境，而局部导航方法通常需要更长的计算时间。

最近，一些研究人员在空地机器人系统领域进行了尝试，例如用于室内环境探索，使用UAV进行地图构建，随后采用传统计算机视觉方法为UGV进行分类和路径规划。然而，这些研究通常使用非学习算法作为其协作方法；采用强化学习等方法可以为系统带来更高的智能性和协作能力。

目前，机器学习算法已广泛应用于计算机视觉、导航与避障以及多智能体系统研究中，并取得了可喜的成果。其中，与传统算法相比，强化学习使智能体能够学习并与环境交互，并根据奖励更有效地更新其策略。RL已被用于机器人搜救和导航，但随着环境复杂度的增加，它面临维度灾难问题，这限制了其应用场景。深度强化学习(DRL)算法的出现，在神经网络的辅助下，在一定程度上解决了这些问题。可以通过神经网络提取和学习状态特征，从而在一定程度上降低维度。此外，已证明DRL在应对复杂任务中的不确定性和制定更好目标方面比非学习方法更有效。

一种常用的DRL算法是近端策略优化(PPO)，它是一种策略梯度算法，通过梯度上升更新策略，并限制策略变异以减少方差和收敛时间，同时保持效率和稳定性，并取得良好的学习效果。然而，在DRL的训练过程中，由于稀疏奖励和高维状态空间的问题，策略可能难以收敛到全局最优解。

为了应对这些挑战，本文提出了一种多阶段强化学习方法，用于异构机器人系统在地下矿井环境中的协作搜索与导航。

本文的主要贡献总结如下：

1) 提出了一种基于学习的方法，用于异构机器人系统的协作搜索与导航，该方法在仿真环境中实现了高成功率。该方法采用多阶段强化学习方法，分两个阶段训练UAV和UGV的策略。此外，引入了内在好奇心模块(ICM)来解决稀疏奖励问题，使智能体在训练过程中能够更有效地探索环境。

2) 所提出的导航方法不需要任何地图构建，UGV只需跟随UAV同时避开障碍物即可到达目标位置。而且，UGV和UAV在整个过程中不会获取任何与目标位置相关的信息。

3) 通过在日益复杂的环境中评估了训练策略的性能和泛化能力。结果表明，与现有的基线方法相比，本文所提出的方法具有优越的性能。

本文的其余部分结构如下。第2节总结了相关工作。第3节描述了异构机器人系统协作搜救导航的问题。第4节提出了一个多阶段强化学习框架。第5节对所提的方法进行了仿真实验验证并讨论了结果。第6节总结了本工作并对未来工作进行了展望。

本文作者

作者团队.jpg

全文下载：

Target Search and Navigation in Heterogeneous Robot Systems with Deep Reinforcement Learning

Yun Chen & Jiaping Xiao

https://link.springer.com/article/10.1007/s11633-024-1512-6

https://www.mi-research.net/article/doi/10.1007/s11633-024-1512-6

BibTex:

@Article {MIR-2024-02-024,

author={ Yun Chen, Jiaping Xiao },

journal={Machine Intelligence Research},

title={Target Search and Navigation in Heterogeneous Robot Systems with Deep Reinforcement Learning},

year={2025},

volume={22},

issue={1},

pages={79-90},

doi={10.1007/s11633-024-1512-6}}

特别感谢本文两位作者、陈昀博士及肖佳平研究员对以上内容的审阅和修改！

∨

关于Machine Intelligence Research

Machine Intelligence Research（简称MIR，原刊名International Journal of Automation and Computing）由中国科学院自动化研究所主办，于2022年正式出版。MIR立足国内、面向全球，着眼于服务国家战略需求，刊发机器智能领域最新原创研究性论文、综述、评论等，全面报道国际机器智能领域的基础理论和前沿创新研究成果，促进国际学术交流与学科发展，服务国家人工智能科技进步。期刊入选"中国科技期刊卓越行动计划"，已被ESCI、EI、Scopus、中国科技核心期刊、CSCD等20余家国际数据库收录，入选图像图形领域期刊分级目录-T2级知名期刊。2022年首个CiteScore分值在计算机科学、工程、数学三大领域的八个子方向排名均跻身Q1区，最佳排名挺进Top 4%，2023年CiteScore分值继续跻身Q1区。2024年获得首个影响因子(IF) 6.4，位列人工智能及自动化&控制系统两个领域JCR Q1区；2025年发布的最新影响因子达8.7，继续跻身JCR Q1区，最佳排名进入全球第6名；2025年一举进入中国科学院期刊分区表计算机科学二区。