IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

基于滚动时域强化学习的智能车辆侧向控制算法

已有 907 次阅读 2024-1-5 11:57 |系统分类:博客资讯

引用本文

 

张兴龙, 陆阳, 李文璋, 徐昕. 基于滚动时域强化学习的智能车辆侧向控制算法. 自动化学报, 2023, 49(12): 24812492 doi: 10.16383/j.aas.c210555

Zhang Xing-Long, Lu Yang, Li Wen-Zhang, Xu Xin. Receding horizon reinforcement learning algorithm for lateral control of intelligent vehicles. Acta Automatica Sinica, 2023, 49(12): 24812492 doi: 10.16383/j.aas.c210555

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c210555

 

关键词

 

滚动时域,强化学习,智能汽车,侧向控制 

 

摘要

 

针对智能车辆的高精度侧向控制问题, 提出一种基于滚动时域强化学习(Receding horizon reinforcement learning, RHRL)的侧向控制方法. 车辆的侧向控制量由前馈和反馈两部分构成, 前馈控制量由参考路径的曲率以及动力学模型直接计算得出; 而反馈控制量通过采用滚动时域强化学习算法求解最优跟踪控制问题得到. 提出的方法结合滚动时域优化机制, 将无限时域最优控制问题转化为若干有限时域控制问题进行求解. 与已有的有限时域执行器−评价器学习不同, 在每个预测时域采用时间独立型执行器−评价器网络结构学习最优值函数和控制策略. 与模型预测控制(Model predictive control, MPC)方法求解开环控制序列不同, RHRL控制器的输出是一个显式状态反馈控制律, 兼具直接离线部署和在线学习部署的能力. 此外, 从理论上证明了RHRL算法在每个预测时域的收敛性, 并分析了闭环系统的稳定性. 在仿真环境中完成了结构化道路下的车辆侧向控制测试. 仿真结果表明, 提出的RHRL方法在控制性能方面优于现有先进算法, 最后, 以红旗E-HS3电动汽车作为实车平台, 在封闭结构化城市测试道路和乡村起伏砂石道路下进行了侧向控制实验. 实验结果显示, RHRL在结构化城市道路中的侧向控制性能优于预瞄控制, 在乡村道路中具有较强的路面适应能力和较好的控制性能.

 

文章导读

 

作为智能驾驶中的一个重要模块, 运动控制器通过控制刹车、油门、档位、方向盘等执行机构使车辆安全、平稳地跟踪参考路径. 智能车辆在行驶中主要涉及两种运动形式: 纵向运动和侧向运动. 为了简化控制器的设计, 通常将运动进行解耦并分别设计纵向和侧向控制器. 与纵向控制中的舒适性、平滑性控制需求不同, 跟踪精度是侧向控制器的核心考量. 由于车辆本身是一个复杂的高阶非线性系统, 同时又受到行驶环境的影响, 因此如何提高跟踪精度是运动控制中的难题[1-3]. 本文主要针对智能车辆的高精度侧向控制问题开展研究.

 

目前, 常见的侧向控制方法包括比例积分微分(Proportional-integral-derivative, PID)控制方法[4-8]、模糊控制方法[9-12]、反馈控制方法[13-16]、模型预测控制(Model predictive control, MPC)方法、基于强化学习(Reinforcement learning, RL)的控制方法. 在上述方法中, PID的优势在于不需要对车辆进行建模, 控制器的鲁棒性较强、容易实现, 但难以保证性能指标的最优性; 模糊控制器可以推理并产生专家行为, 但是由于驾驶环境的复杂性导致了基于驾驶员行为的模糊规则较难制定.

 

典型的反馈控制器根据智能车辆与参考路径之间的几何关系计算出航向偏差与侧向偏差, 并计算出方向盘转角直接用于转向控制. 根据选取的路径参考点与车辆位置之间的关系, 可以分为单点跟踪法、预瞄距离法、Stanley法、点跟踪法[13]和预瞄距离法[14-15], 具有算法简单、易于实现的特点, 但预瞄距离的选取完全依赖于设计者的经验; Stanley方法[16]由美国斯坦福大学的无人车队率先提出, 该方法适用于较低的车速, 并且要求参考轨迹的曲率具有连续性.

 

MPC方法用于车辆运动控制的研究成果颇多[17-24]. 在上述成果中, Falcone[18]提出了基于连续线性化模型的MPC运动控制器, 仿真的结果表明, 连续线性化的MPC设计方法能够降低计算代价. Carvalho[19]研究了采用局部线性化MPC的局部路径规划算法, 并对非线性的避障边界进行了线性化和凸逼近处理. Beal[20]考虑了车辆的处理极限, 通过引入摩擦力圆来分配车辆的纵向与侧向加速度, 使车辆在控制过程中最大程度地利用地面摩擦力. 在计算车辆与参考路径之间的航向与侧向偏差时需要求出车辆在参考路径上的投影点, 计算过程十分复杂. Liniger[21]提出一种模型预测轮廓控制(Model predictive contouring control, MPCC)的侧向运动方法, 该方法通过估计投影点的位置来计算侧向偏差, 一定程度上降低了计算复杂度. Kabzan[22]基于输入输出数据构建了赛车的非参数化动力学模型, 然后采用MPC方法同时控制赛车的速度与转向. Ostafew[23]采用高斯过程回归构建移动机器人的非参数化模型, 并设计了鲁棒的非线性MPC算法, 实现机器人在越野环境下的避障与跟踪控制. 总的来说, 基于MPC方法的车辆运动控制器一般需要采用数值计算的方法实时求解一个开环控制序列, 其性能可能会受到模型准确度的影响. 另外, 在线计算复杂度也是一个无法回避的问题.

 

近年来, 由于其高效求解优化问题的能力和自适应学习能力, 强化学习和近似动态规划方法(Approximate dynamic programming, ADP)广泛应用于机器人决策与控制算法的设计[25-26]. Oh[27]采用对偶启发式(Dual heuristic programming, DHP) 方法设计了车辆侧向控制器. 杨慧媛等[28]针对轮式移动机器人的跟踪控制问题, 提出了一种学习型PID控制方法, 以优化机器人的跟踪偏差为目标, 采用DHP算法实时调整PID参数以提高路径跟踪精度. 连传强等[29]提出一种基于核特征的DHP (Kernel-based DHP, KDHP)算法, 并设计了车辆侧向运动控制器, 通过在城市道路、高速公路等驾驶环境下的仿真测试证明了基于KDHP算法的有效性. 黄振华等[30]设计了基于同步迭代的DHP (Synchronous iterative DHP, SI-DHP)算法的车辆侧向运动控制器.

 

为了解决强化学习算法学习效率低的问题, Lian[31]针对轮式移动机器人对象提出了一种基于滚动时域的对偶启发式规划方法(Receding horizon DHP, RH-DHP). 仿真结果表明, RH-DHP算法在控制效果上优于传统DHPMPC的控制效果, 并且相比于MPC具有更短的运算时间. 但是上述方法还存在以下三个方面的问题: 1) 其执行器评价器网络需要将时间作为额外的输入信号, 增加了网络设计的复杂度; 2)该工作没有分析执行器评价器学习算法的收敛性以及在此基础上的闭环稳定性; 3)该方法仅在小型轮式仿真平台中进行了验证, 目前, 尚未见到其在实际智能车辆平台中进行应用验证的相关报道.

 

最近, 也有一些重要的工作采用深度学习和深度强化学习基于图像或状态信息设计控制器实现车辆的侧向控制[32-34]. 这类方法的主要优点是利用深度网络来提高强化学习或监督学习的特征表示能力, 训练过程中完全由数据驱动, 不需要动力学模型信息. 其不足之处在于: 1) 由于深度网络过于复杂, 一般只能离线训练控制策略用于在线部署, 其控制性能容易受训练样本数量和分布的影响; 2) 针对深度网络学习的收敛性和鲁棒性等理论特性分析仍是目前学术界需要解决的一个重要难点问题.

 

由上述问题驱动, 本文针对智能车辆的高精度侧向控制问题, 提出了一种基于滚动时域强化学习的侧向控制方法. 首先构建了智能车动力学四阶偏差模型. 车辆的转向控制量由前馈和反馈两部分构成. 前馈控制量由参考路径的曲率以及偏差模型直接计算得出; 而反馈控制量通过采用本文提出的滚动时域强化学习(Receding horizon RL, RHRL)算法求解最优跟踪控制问题得到. 有别于传统基于强化学习的最优控制方法, RHRL采用滚动时域优化机制, 将无限时域的最优控制问题转化为一系列有限时域的启发式动态规划(Heuristic dynamic programming, HDP)问题进行求解. 与已有的有限时域执行器评价器学习算法[31, 35]不同, 在每个预测时域, 我们采用时间独立型执行器评价器结构在线学习逼近最优值函数和控制函数. MPC方法求解开环控制序列不同, 该方法学习得到的策略是一个显式状态反馈控制律, 具有离线直接部署和在线学习部署的能力. 此外, 本文从理论上分析了提出的RHRL算法在每个预测时域内的收敛性和闭环稳定性. 最后, 基于RHRL算法进行了侧向控制的大量的仿真对比实验和实车验证. 在结构化城市道路下的仿真和实车实验结果表明, RHRL算法在仿真和实验中的控制性能均优于预瞄控制; 在仿真测试中, 其控制性能与MPC相当并在计算效率方面具有优势, 与最近流行的软执行器评价器(Soft actor-critic, SAC)算法和深度确定性策略梯度(Deep deterministic policy gradient, DDPG)算法相比, 控制性能更好, 且具有更低的样本复杂度和更高的学习效率. 在乡村砂石道路下的实验结果表明, RHRL具有较强的路面适应能力和较好的控制性能.

 

需要强调的是, 与最近发展的基于深度学习和深度强化学习的方法[32-34]相比, 本文提出的RHRL算法采用简单的网络结构, 计算效率更高, 可以在线同步训练和部署, 具有较强的环境适应能力; 而且, RHRL算法通过引入滚动时域优化思想来提高强化学习的实时学习效率和稳定性. 更重要地, 我们分析证明了RHRL中执行器评价器学习算法的收敛性以及闭环稳定性, 并在实际平台中进行了应用验证. 实验结果证明了RHRL算法的有效性.

 

本文的结构如下:1节首先介绍智能驾驶车辆的侧向动力学模型和控制问题描述; 2节主要介绍基于滚动时域强化学习的车辆侧向控制算法及其收敛性分析; 3节和第4节分别给出仿真和实验验证结果以及本文的结论.

 1  智能车辆二自由度侧向模型

 2  侧向误差模型

 3  智能车侧向控制框图

 

提出了一种基于滚动时域强化学习的智能驾驶车辆侧向控制算法. 该算法将强化学习与滚动时域优化机制融合, 把无限时域自学习优化问题转化为一系列有限时域优化问题, 并通过执行器评价器算法进行求解. 该设计思想通过滚动时域机制提高了强化学习算法的学习效率; MPC相比, 采用执行器评价器的优化方式能够提高计算效率. 因此, 本文提出的RHRL可以看作是一种介于强化学习和MPC之间的控制算法. 此外, 与大多数已有的有限时域执行器评价器学习算法不同, 本文提出的RHRL采用时间独立的网络结构, 降低了网络的设计和在线计算复杂度, 而且本文还从理论上分析了其在每个预测时域内的收敛性以及闭环系统的稳定性. 在仿真场景中与典型传统算法和深度强化学习算法的对比实验结果验证了RHRL算法的有效性. 另外, 从结构化道路场景中的实验结果可以看出, 即使在变速控制条件下, RHRL依然比恒速条件下的纯点预瞄控制方法具有更好的控制性能. 从乡村起伏砂石道路中的实际实验结果可以看出, RHRL具有良好的路面适应能力和控制性能.

 

作者简介

 

张兴龙

国防科技大学智能科学学院副研究员. 2018年获得意大利米兰理工大学博士学位. 主要研究方向为滚动时域强化学习及其在无人系统中的应用. E-mail: zhangxinglong18@nudt.edu.cn

 

陆阳

国防科技大学智能科学学院博士研究生. 2020年获得国防科技大学硕士学位, 2018年获得山东大学学士学位. 主要研究方向为强化学习及其在无人系统中的应用. E-mail: luyang18@nudt.edu.cn

 

李文璋

2018年获得北京理工大学学士学位, 2020年获得国防科技大学硕士学位. 主要研究方向为智能车学习控制. E-mail: 15624953231@163.com

 

徐昕

国防科技大学智能科学学院研究员. 2002年获得国防科技大学机电与自动化学院控制科学与工程博士学位. 主要研究方向为智能控制, 强化学习, 近似动态规划, 机器学习, 机器人和智能驾驶. 本文通信作者. E-mail: xinxu@nudt.edu.cn



https://wap.sciencenet.cn/blog-3291369-1416754.html

上一篇:一种基于随机权神经网络的类增量学习与记忆融合方法
下一篇:基于包含控制的多微网系统公共耦合点电压调节策略
收藏 IP: 117.114.9.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-29 14:15

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部