|
引用本文
张楠杰, 陈玉全, 季茂沁, 孙运康, 王冰. 面向不同粗糙程度地面的四足机器人自适应控制方法. 自动化学报, 2025, 51(7): 1585−1598 doi: 10.16383/j.aas.c240738
Zhang Nan-Jie, Chen Yu-Quan, Ji Mao-Qin, Sun Yun-Kang, Wang Bing. Adaptive control method for quadruped robot facing floors of different roughness. Acta Automatica Sinica, 2025, 51(7): 1585−1598 doi: 10.16383/j.aas.c240738
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c240738
关键词
四足机器人,强化学习,自适应控制策略,奖励函数优化,分层控制框架
摘要
针对四足机器人在复杂环境中的高速稳定运动问题, 提出一种融合模型和学习的分层运动控制框架. 首先, 提出基于单次落足点偏差的惩罚机制, 实现对连续滑动状态的有效评估. 其次, 构建基于双曲正切函数的连续接触状态描述, 显著改善了传统离散方法中的相位切换冲击问题. 然后, 设计基于LSTM的地面特性实时估计网络, 实现质心位置的自适应调整. 最后, 提出基于执行层和决策层的分层控制框架, 提高系统的环境适应能力. 在Isaac Gym仿真环境中的实验表明, 该控制方法能够适应不同摩擦系数和运动速度条件. 特别是在极低摩擦环境($\mu=0.05$)下, 自适应控制策略通过$0.061\;0 \;\text{m}$的质心高度调整, 在维持$1.428\;4 \text{ m/s}$运动速度的同时, 将足端滑动距离控制在$0.308 \pm 0.005\;0 \text{ cm}$, 充分验证了所提控制方法的有效性和实用价值.
文章导读
四足机器人凭借其出色的环境适应性和运动灵活性, 在工业巡检、灾害救援、极地探索等领域具有广阔的应用前景. 然而, 随着应用场景的不断拓展, 四足机器人面临着严峻的控制挑战: 从崎岖不平的野外地形到潮湿光滑的室内地面, 从易变形的沙地到狭窄的障碍物密集区域. 这些复杂的环境条件对机器人的运动控制提出更高要求, 尤其在光滑地面环境下, 传统控制方法难以兼顾运动的稳定性和灵活性, 限制了四足机器人的实际应用. 相比之下, 四足动物能够在各种复杂环境中展现出优异的运动能力, 可以精确调整身体姿态, 灵活选择落脚点, 从容应对各类地形挑战[1].
为实现四足动物般的灵活运动能力, 研究人员对四足机器人控制进行广泛探索. 传统的基于模型的方法, 如模型预测控制(Model predictive control, MPC), 主要通过简化动力学模型实现在线轨迹优化[2−3]. 这类方法在理想环境下表现出色, 能够保证机器人的运动稳定性, 并具有一定的抗扰动能力[4]. 随着环境复杂度增加, 准确建模变得愈发困难. 特别是在低摩擦地面上, 由于摩擦力的不确定性, 基于模型的控制方法难以实现预期的控制效果[5].
近年来, 强化学习(Reinforcement learning, RL)方法为解决上述问题提供了新的思路. 与传统方法不同, RL通过智能体与环境的持续交互来学习最优控制策略, 无需对复杂环境进行精确建模[6]. 研究表明, 基于RL的控制器能够自主学习复杂的运动策略, 优化步态参数, 提高能量效率, 并增强对外部扰动的鲁棒性[7−8]. 在步态优化方面, RL方法具有显著优势: 训练得到的步态具有更强的泛化能力[9]、更高的学习效率[10] 以及更自然的运动特征[11].
尽管RL方法在四足机器人控制领域取得了显著进展, 但在实际应用中仍面临重大挑战. 首先, 仿真环境与实际环境存在显著的差异, 虽然研究者提出了快速运动适应(Rapid motor adaptation, RMA)等方法[7], 但其在低摩擦环境下的适应能力仍然有限. 其次, 现有研究往往忽视质心位置对运动稳定性的重要影响, 这导致机器人在不同摩擦系数环境下的控制性能显著下降. 特别是在未知的低摩擦环境中, 现有控制器无法及时调整机体姿态和步态参数, 容易导致运动失稳[12].
针对上述挑战, 本文提出一种融合模型驱动和强化学习的四足机器人运动控制框架, 主要创新点如下:
1) 奖励函数设计: 提出单次落脚点偏差惩罚机制, 克服传统累积惩罚方法对瞬时滑动的过度敏感问题, 实现对连续滑动状态的有效评估;
2) 接触状态建模: 提出基于双曲正切函数的连续接触状态描述方法, 有效解决传统离散描述方法中的接触冲击问题, 提升运动过程的连续性和稳定性;
3) 地面特性感知: 设计基于LSTM的地面特性实时估计网络, 结合机体姿态动态调整策略, 实现机器人在不同粗糙程度地面的鲁棒运动;
4) 分层控制架构: 构建基于执行层和决策层的分层控制框架, 实现模型驱动与强化学习的有效结合, 提高系统的环境适应能力.
本文结构如下: 第1节介绍四足机器人步态设计与训练方法; 第2节详细阐述所提出的控制方法; 第3节通过仿真实验验证方法的有效性; 第4节总结全文并讨论未来研究方向.
图 1 四种步态及其期望的接触状态图
图 2 相位变量与腿部运动的映射关系
图 3 系统控制框架
本文提出一种新型四足机器人运动控制方法, 通过融合基于模型和基于学习的方法, 实现了机器人在不同摩擦系数地面的稳定运动. 主要贡献包括: 1)在奖励函数设计中, 提出基于单次落足点偏差的惩罚机制, 有效解决了传统方法对瞬时滑动过度惩罚的问题; 2)在接触建模方面, 采用双曲正切函数构建连续状态描述, 显著改善了传统离散方法中的冲击问题; 3)在环境感知上, 提出基于LSTM的地面摩擦特性估计方法, 实现了质心高度的实时自适应调整; 4)在控制架构上, 设计执行层与决策层协同的分层控制框架, 实现了基于模型的控制与强化学习方法的有效融合.
实验结果表明, 基于双曲正切函数的连续状态描述方法有效改善了传统离散方法中的相位切换冲击问题; 自适应控制策略通过动态调整质心高度, 成功应对了不同摩擦系数($ \mu\in\{0.05,\; 0.2,\; 1.0\} $)和运动速度(1.5 m/s、2.0 m/s)条件. 特别是在低摩擦环境($ \mu = 0.05 $)下, 仅需0.061 0 m的质心调整就能将足端滑动距离控制在0.308$ \pm $0.005 0 cm, 同时保持1.428 4 m/s的较高运动速度, 验证了所提方法的有效性和实用价值.
未来工作将着重于以下方面: 研究针对不同地形特征的步态自适应选择策略, 扩展至多样化地形环境的实验验证、自适应策略参数的优化以及实物平台的部署测试, 以进一步提升控制方法的性能和实用性.
作者简介
张楠杰
河海大学人工智能与自动化学院硕士研究生. 主要研究方向为无人系统控制和具身智能. E-mail: 231622010045@hhu.edu.cn
陈玉全
河海大学人工智能与自动化学院副教授. 主要研究方向为具身智能, 智能优化, 分数阶系统与控制. 本文通信作者. E-mail: cyq@mail.ustc.edu.cn
季茂沁
河海大学人工智能与自动化学院硕士研究生. 主要研究方向为非渐近收敛理论和无人系统控制. E-mail: 231322010005@hhu.edu.cn
孙运康
河海大学人工智能与自动化学院硕士研究生. 主要研究方向为多智能体控制, 无人系统控制, 自适应控制. E-mail: sunyunkanghhu@163.com
王冰
河海大学人工智能与自动化学院教授. 主要研究方向为无人系统控制, 新能源发电控制, 电力系统调度. E-mail: icekingking@hhu.edu.cn
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-8-24 02:38
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社