CTTjournal的个人博客分享 http://blog.sciencenet.cn/u/CTTjournal

博文

2024优秀论文 | 一种鲁棒策略优化的Lyapunov刻画

已有 285 次阅读 2025-6-24 10:57 |个人分类:文章推荐|系统分类:博客资讯

今天给大家分享的是“A Lyapunov characterization of robust policy optimization (一种鲁棒策略优化的Lyapunov刻画)”,文章获得了2024年度CTT优秀论文奖。

策略优化首先对控制策略进行参数化,然后通过沿着给定成本函数的梯度下降方向更新参数来迭代提高控制策略的性能。策略优化是强化学习的基础,其执行效果受建模误差、不准确的状态估计、测量噪声和未知系统扰动等影响较大。如何量化分析这些影响是一项重要且具有挑战性的工作。本文将围绕这一主题展开。

 

题目:A Lyapunov characterization of robust policy optimization

作者:Leilei Cui,Zhong-Ping Jiang

机构:New York University, USA

引用信息: Cui, L., Jiang, ZP. A Lyapunov characterization of robust policy optimization. Control Theory Technol. 21, 374–389 (2023). https://doi.org/10.1007/s11768-023-00163-w

全文: https://rdcu.be/dsGBG

 

摘 要

本文研究了策略优化(特别是高斯-牛顿梯度下降算法,相当于强化学习中的策略迭代)在每次迭代时受到噪声影响的鲁棒性。通过利用输入-状态稳定性的概念和Lyapunov直接法,研究表明,如果噪声足够小,即使在每次迭代都存在噪声的情况下,策略迭代算法也会收敛到最优解的一个小邻域。并给出了噪声的上界和策略最终收敛到的邻域大小的显式表达式。基于Willems基本引理,提出了一种基于学习的策略迭代算法。通过检查与探测信号相关的Hankel矩阵的秩,可以容易地保证持续激励条件。通过策略迭代的输入-状态稳定性,基于学习的策略迭代对测量噪声和未知系统扰动的鲁棒性从理论上得到了证明。进行了多次数值仿真以验证所提出方法的有效性。 

 

引 言

通过强化学习(RL)技术和不断地与未知环境交互,智能体可以迭代最小化特定的成本函数。策略优化是RL算法的开发基础。由于线性二次调节器(LQR)问题易于处理并且在许多工程领域得到了广泛的应用,它为策略优化的理论分析提供了一个理想的基准实例。对于LQR问题,控制策略由控制增益矩阵参数化,且相应的成本函数的梯度与Lyapunov矩阵方程相关联。

在可获得系统精确模型的前提下,策略迭代(PI)算法的收敛性可得到保证。然而,在现实中,需要通过系统辨识获得的系统模型来执行PI算法,或者通过使用输入-状态数据的数据驱动方法直接实现PI算法。因此,由于建模误差、不准确的状态估计、测量噪声和未知系统扰动,PI算法难以准确执行。PI算法对不可避免噪声的鲁棒性是亟需研究的一个重要性质。这为更好理解RL算法奠定了基础。研究PI算法的鲁棒性主要有如下挑战:首先,PI算法的非线性使其收敛性难以分析;其次,很难量化噪声的影响,因为噪声可能会破坏PI算法的单调性,甚至导致生成的控制器不稳定。

在本文中,作者研究了PI算法在存在噪声情况下的鲁棒性。本文贡献如下:首先,通过将PI算法视为一个非线性系统,并利用输入-状态稳定性(ISS)的概念,特别是小扰动的ISS,作者研究了PI算法在噪声影响下的鲁棒性。研究表明,当系统受到噪声影响时,只要噪声足够小,PI算法生成的控制策略最终会收敛到LQR最优解的一个小邻域。与文献[24,25]中基于轨迹的分析不同,作者直接利用Lyapunov的直接方法来分析PI算法在扰动下的收敛性,给出了噪声上界的显式表达式。控制策略最终停留的邻域大小是噪声强度的二次函数。其次,利用Willems基本引理,提出了一种基于学习的PI算法。与难以设计探索性控制输入以满足持续激励条件的传统基于学习的控制方法相比,通过检查与探索信号相关的Hankel矩阵的秩条件,可以容易地设计所提出方法的持续激励探索信号。最后,基于PI算法的小扰动ISS特性,作者证明了所提出的基于学习的PI算法对状态测量噪声和未知系统扰动是鲁棒的。

[24] Pang, B., & Jiang, Z. P. (2021). Robust reinforcement learning: A case study in linear quadratic regulation. Proceedings of the AAAI Conference on Artificial Intelligence, 35(10), 9303–9311.

[25] Pang, B., Bian, T., Jiang, Z. P. (2022). Robust policy iteration for continuous-time linear quadratic regulation. IEEE Transactions on Automatic Control, 67(1), 504–511. https://doi.org/10.1109/TAC. 2021.3085510.

 

结 论

在本文中,作者研究了在每次迭代都存在扰动的情况下策略优化的鲁棒性。使用ISS-Lyapunov技术,证明了如果扰动足够小,PI最终收敛到最优解的一个小邻域。在本文中,作者还提供了一个可量化的界。基于ISS性质和Willems基本引理,提出了一种基于学习的PI算法,可以容易地保证探索信号是持续激励的。数值仿真例子说明了理论结果的有效性。

 

作 者 介 绍

Leilei Cui, 于2016年获得了西北工业大学自动化学士学位,2019年获得了上海交通大学控制工程硕士学位,目前是纽约大学坦登工学院控制与网络实验室的博士研究生。他的研究兴趣包括机器人控制、强化学习、自适应动态规划和最优控制。

 Zhong-Ping Jiang, 于1989年获得了法国巴黎第十一大学统计学硕士学位,于1993 年在 Laurent Praly 教授指导下获得了法国巴黎高等矿业大学自动控制和数学博士学位。目前,他是纽约大学坦登工学院电气与计算机工程系教授。其主要研究兴趣包括稳定性理论、鲁棒/自适应/分布式非线性控制、鲁棒自适应动态规划、强化学习及其在信息、机械和生物系统中的应用。在这些领域,他撰写了六本书,并且是 500 多篇同行评审的期刊和会议论文的作者。姜教授曾获得了澳大利亚研究委员会颁发的伊丽莎白二世女王研究奖、美国国家科学基金委颁发的CAREER奖、日本学术振兴会颁发的研究奖、中国国家自然科学基金委颁发的杰出海外华人研究奖和多项最佳论文奖,曾任多个期刊副主编、高级编辑、副编辑,是IEEE/IFAC/CAA/AAIA Fellow、欧洲科学院外籍院士、科睿唯安高被引研究员和斯坦福顶尖2%高被引科学家。2022年,他获得了纽约大学坦登工学院杰出研究奖。2023年当选为欧洲科学与艺术院院士。

期刊简介

cover.jpg  640 spr.jpg

欢迎扫码进入期刊主页

Control Theory and Technology (CTT), 中文名《控制理论与技术》, 创刊于2003年,原刊名为Journal of Control Theory and Applications,2014年刊名更改为Control Theory and Technology。由华南理工大学与中国科学院数学与系统科学研究院联合主办,主要报道系统控制科学中具有新观念、新思想的理论研究成果及其在各个领域中的应用。目前被 ESCI (JIF 1.7)、EI、Scopus (CiteScore 3.2)、CSCD、INSPEC、ACM 等众多数据库收录, 并于2013–2018年获得两期中国科技期刊国际影响力提升计划项目资助。2017–2021年连续获得“中国最具国际影响力学术期刊”和“中国国际影响力优秀学术期刊”称号,获得广东省高水平科技期刊建设项目(2021-2024年),2022-2024年进入中国科协自动化学科领域高质量科技期刊目录。

官网https://link.springer.com/journal/11768 (即http://www.springer.com/11768)

https://jcta.ijournals.cn/cta_en/ch/index.aspx

投稿https://mc03.manuscriptcentral.com/ctt

微信:ControlTheoryTech (欢迎扫码关注期刊微信公众号)

微博ControlTheoryTech

Email:jcta@scut.edu.cn    

Tel:020-8711 1464

 2023-2024刊期合集 

Volume 22 (February - November 2024)

Issue 4, 2024

Issue 3, 2024 - Special issue on analysis and control of complex systems in honor of the 90th birthday of Professor Huashu Qin

Issue 2, 2024 - Special issue on system identification and estimation

Issue 1, 2024

Volume 21 (February - November 2023)

Issue 4, 2023

Issue 3, 2023 - Special issue on frontiers of control and automation, dedicated to Prof. Ben M. Chen 60th birthday

Issue 2, 2023

Issue 1, 2023 - Special issue on connecting theory and practice with ADRC



https://wap.sciencenet.cn/blog-3635716-1491029.html

上一篇:2024优秀论文 | 多无人机安全编队控制:控制设计与安全稳定性分析
收藏 IP: 218.192.172.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-6-25 13:00

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部