近年来,以ADP方法为基础的策略学习与控制已成为国内外多方微分博弈领域研究的热点话题之一。为求解微分博弈模型,根据动态规划理论列出的耦合HJB方程几乎不可能求解到显式解析解,而ADP可利用函数估计器(如神经网络)来逼近耦合HJB方程的最优解。目前ADP方法的主要学习框架可分为值迭代(VI)和策略迭代(PI)两种,其中PI因为其学习方法简单、收敛速度快、理论可靠性高的特点而得到更广泛的应用和研究。但基于PI的ADP方法普遍有两个特点:一是需要一个稳定可行的初始策略来启动迭代过程,二是迭代过程中所有博弈方的中间策略信息全局可知。但在复杂的实际场景中,这两点假设可能均难以成立,这也限制了相关方法在实际场景中的进一步运用。
成果介绍
上海交通大学蔡云泽团队提出了一种基于值迭代(VI)框架的协同ADP(cVIADP)算法,能够在无初始稳定策略条件下求解不完全信息多方微分博弈系统均衡策略,且具备理论可靠性。该算法设计了针对多方微分博弈的最优反应VI学习方法,消除了初始稳定解的限制。同时,将所有博弈方分为激活和非激活两类,只有处于激活状态的博弈方才会对自身策略进行迭代更新,非激活博弈方策略固定,并使用非激活方状态信息表征其内部未知信息,使得学习算法仅需使用外部状态信息即可完成迭代。研究成果发表于IEEE/CAA Journal of Automatica Sinica2024年第十一卷第三期:Y. Zhang, L. Zhang, and Y. Cai, “Value iteration-based cooperative adaptive optimal control for multi-player differential games with incomplete information,” IEEE/CAA J. Autom. Sinica, vol. 11, no. 3, pp. 690–697, Mar. 2024. doi: 10.1109/JAS.2023.124125
研究表明,即便初始控制策略并不是稳定可行策略,且各方仅可知其他博弈方状态信息的情况下,博弈系统仍可收敛到纳什均衡状态。通过理论分析,可证明cVIADP的收敛性和策略稳定性。进一步通过仿真结果,可验证该方法的有效性。图1展示了在一个三方非线性博弈系统中,cVIADP所学习的三个估计器权重可收敛至均衡值。如图2所示,在该三方非线性博弈中,初始控制策略(虚线)是不稳定策略,但学习后的均衡策略可使系统稳定。图3展示了三个控制器所对应的价值函数曲面迭代图,可看出价值函数迭代呈现递增特点,符合文中理论分析结果。
图1 价值函数估计器权重收敛图
图2 系统状态变化图
图3 价值函数曲面迭代图
作者及团队
张贇,上海交通大学控制科学与工程专业博士研究生,研究方向包括微分博弈、自适应动态规划及其在多智能体系统中的应用。
章露露,上海交通大学控制科学与工程专业博士研究生,其研究方向包括智能优化算法,多智能体协同控制等。
蔡云泽,上海交通大学研究员,中国自动化学会会员,2003年博士毕业于上海交通大学。长期从事复杂环境下的自主态势感知、对抗环境下的智能协同决策研究,主持或参与国家自然科学基金面上项目、重大科研仪器专项、重点研发计划等相关基础研究项目,航天科技支撑基金、航天科技创新基金、航空科学基金等国防研究类项目。发表学术论文80余篇,发明专利8项。曾获得海南省自然科学一等奖、上海市科学技术三等奖、上海市自然科学三等奖。
感谢本文作者提供以上简介
转载本文请联系原作者获取授权,同时请注明本文来自欧彦科学网博客。
链接地址:https://wap.sciencenet.cn/blog-3291369-1465275.html?mobile=1
收藏