Ouariel
基于高斯过程的不确定非线性系统在线学习控制及应用
2025-8-29 16:06
阅读:897

引用本文

 

刘玉发, 练桂铭, 刘勇华, 苏春翌. 基于高斯过程的不确定非线性系统在线学习控制及应用. 自动化学报, 2025, 51(7): 16621672 doi: 10.16383/j.aas.c240356

Liu Yu-Fa, Lian Gui-Ming, Liu Yong-Hua, Su Chun-Yi. Online learning control of uncertain nonlinear systems using Gaussian processes and its application. Acta Automatica Sinica, 2025, 51(7): 16621672 doi: 10.16383/j.aas.c240356

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c240356

 

关键词

 

非线性系统,不确定系统,高斯过程,在线学习控制,机械臂 

 

摘要

 

针对一类不确定非线性系统, 提出一种基于高斯过程的在线学习控制方法. 该方法首先通过障碍函数间接设定系统状态的运行区域. 其次, 在该区域内在线采集量测数据, 利用高斯过程回归对系统中未知非线性动态进行学习. 然后, 通过Lyapunov稳定理论, 证明了所提在线学习控制算法可保证闭环系统所有信号的有界性. 与基于径向基神经网络的自适应控制方案相比, 所提控制算法无需精确给出系统状态的运行区域及预先分配径向基函数中心值. 最后, 通过数值仿真与Franka Emika Panda 协作机械臂关节控制实验, 验证了本文控制算法的有效性与先进性.

 

文章导读

 

随着科学技术, 特别是信息科学技术的快速发展, 机械、化工、电力电子、交通运输和物流等各领域发生巨大的变化, 生产工艺、生产设备和生产过程越来越复杂, 呈现出强非线性、不确定性与未知的动态特性等特征[1−4], 越来越难以建立精确的数学模型. 对这类系统采用传统的非线性控制方法往往难以取得理想的控制效果. 径向基神经网络(Radial basis function neural networks, RBFNNs)具有学习复杂输入输出映射的强大能力, 能够以任意精度逼近任意连续函数, 已被广泛用于解决各类不确定非线性系统的控制问题[5−12]. 然而, 由于高斯径向基函数(Radial basis function, RBF)的输出在远离其中心值时呈指数衰减, 因此, RBFNNs 的逼近能力很大程度上取决于其RBF 中心值的选取. 为确保RBFNNs 对系统中未知动态进行有效建模, 神经网络输入变量必须保持在接近某些高斯RBF中心值的位置.

 

在执行基于RBFNNs的自适应控制算法时, 通常隐含着神经网络运行区域已给定的假设条件, 且需要在给定的神经网络运行区域内预先分配高斯RBF中心值. 然而, 如何给定神经网络运行区域并预先分配高斯RBF中心值是一个极具挑战性的难题. 针对一类控制增益为常数的不确定非线性系统, SannerSlotine[13]通过引入切换函数设定神经网络运行区域, 提出一种由PD控制模块、自适应神经网络控制模块和含系统先验信息的滑模控制模块组成的自适应控制算法. 受此启发, Chen[14]通过构造三个光滑切换函数, 设计一种基于反步控制技术的自适应神经网络跟踪方案, 使得系统跟踪误差收敛至一个预先指定的精度范围. 但这些基于RBFNNs的自适应控制方案仍依赖于系统未知动态的先验知识. 为此, Liu[15−18]结合障碍Lyapunov 函数和RBFNNs, 提出一种不依赖于未知动态先验知识的自适应控制算法. 然而, 该算法仅能间接确定神经网络的运行区域, 致使无法预先分配高斯RBF中心值. 通常而言, 在未给定神经网络运行区域的条件下, 预先分配RBF中心值常常会造成RBFNNs对未知动态的逼近误差较大. 为克服这一限制, 文献[19−21]提出基于最小化瞬时跟踪误差的RBF中心值调整规则. 然而, 以减少跟踪误差来更新RBF中心值并不能保证减少逼近误差.

 

RBFNNs的参数化逼近不同, 高斯过程回归(Gaussian process regression, GPR)是一种基于贝叶斯理论的鲁棒非参数化逼近模型, 消除了预先给定神经网络运行区域及预先分配RBF中心值的要求. 作为通用函数逼近器[22], 高斯过程(Gaussian process, GP)能够处理含有非参数的系统不确定性[23]. 近年来, 基于GP的非线性系统控制问题引起国内外学者的广泛关注[24−37]. Umlauft[27]通过选取合适的核结构与离线采集训练数据, 提出一种基于GP的反馈线性化控制算法. 针对一类模型部分未知的严格反馈非线性系统, CaponeHirche[28]设计一种结合GP与命令滤波技术的反步控制方案. 但这些控制算法中的系统模型均采用固定训练数据集离线学习获得. 若采集的数据远离期望轨迹, 期望轨迹附近的模型误差很大, 从而使得跟踪性能较差. 为解决这一问题, Chowdhary [29]GP与模型参考自适应控制相结合, 提出一种基于在线学习的跟踪控制方法. UmlauftHirche[30]提出一种基于事件触发机制的在线学习方法, 仅当设计事件触发时才采集更新训练数据集. Jiao[31]将文献[30]中的方法进一步推广到一类具有部分未知动态的严格反馈系统. 针对一类不确定多智能体非线性系统的协同控制问题, Lederer[32]设计一种基于分布式高斯过程的事件触发一致性控制策略. 然而, 这些在线学习方法均要求系统中非线性动态满足全局有界的假设条件, 极大地限制了其应用范围.

 

鉴于以上分析, 本文针对一类非线性系统, 在无需系统未知动态全局有界的条件下, 提出一种基于GP的在线学习控制方法. 本文的主要贡献在于: 1) 通过引入障碍函数设定系统状态的运行区域. 在该区域内, 基于在线采集的训练数据, 利用GPR对系统中未知动态进行学习. 进而利用Lyapunov 稳定性理论, 证明闭环系统的稳定性. 2) 与基于RBFNNs的自适应控制方案相比, 本文所提算法避免精确给定系统状态的运行区域及预先分配RBF中心值. 3) 与文献[30−31]所提的在线学习控制算法相比, 本文无须要求系统的未知动态满足全局有界条件, 放宽该算法应对复杂未知动态的适应范围. 最后, 数值仿真与Franka Emika Panda协作机械臂关节控制实验验证了本文所提控制方法的有效性与优越性.

 2  本文所提GP-OLC、文献[30]GP-OLFLC、文献[7] RBFNNs-ACPID控制作用下跟踪误差$e_1$

 4  本文所提GP-OLC、文献[30]GP-OLFLC、文献[7] RBFNNs-ACPID控制作用下跟踪误差$e_2$

 6  Franka Emika Panda机械臂系统结构

 

本文针对一类非线性系统, 在无需系统中未知动态全局有界的条件下, 提出了一种基于障碍函数和GP 的在线学习控制方法. 首先, 引入障碍函数设定系统状态的运行区域. 其次, 基于该区域内的训练数据, 利用GPR对系统中未知非线性动态进行在线学习. 进而, 利用Lyapunov稳定性理论, 证明了所提在线学习控制算法可保证闭环系统所有信号一致有界. 与基于RBFNNs 的自适应控制相比, 本文所提算法无需精确给定系统状态的运行区域及预先分配RBF中心值. 最后, 通过数值仿真与Franka Emika Panda协作机械臂关节控制实验验证了所提GP-OLC的有效性与先进性. 未来的工作包括将本文所提方法推广至具有严格反馈结构或非仿射特征的复杂非线性系统中.

 

作者简介

 

刘玉发

广东工业大学自动化学院博士研究生. 主要研究方向为自适应控制与智能控制. E-mail: yufa.liu@outlook.com

 

练桂铭

广东工业大学自动化学院硕士研究生. 主要研究方向为自适应控制与智能控制. E-mail: gaslian@foxmail.com

 

刘勇华

广东工业大学自动化学院副教授. 主要研究方向为非线性控制与智能控制. 本文通信作者. E-mail: yonghua.liu@outlook.com

 

苏春翌

广东工业大学自动化学院教授. 主要研究方向为控制理论及其在机电系统中的应用. E-mail: chunyi.su@concordia.ca

转载本文请联系原作者获取授权,同时请注明本文来自Ouariel科学网博客。

链接地址:https://wap.sciencenet.cn/blog-3291369-1499600.html?mobile=1

收藏

分享到:

下一篇
当前推荐数:0
推荐到博客首页
网友评论0 条评论
确定删除指定的回复吗?
确定删除本博文吗?