CTTjournal的个人博客分享 http://blog.sciencenet.cn/u/CTTjournal

博文

虚拟专题 | 深度学习与强化学习

已有 194 次阅读 2025-4-23 09:17 |个人分类:专题|系统分类:博客资讯

虚拟专题 | 深度学习与强化学习

导  读

    深度学习与强化学习作为人工智能的关键分支,正深刻影响着控制理论与应用。它们强大的学习与决策能力在众多领域展现巨大潜力。本专题聚焦其前沿进展,涵盖医学图像智能分割、复杂系统在线控制、多智能体协同、鲁棒导航与定位、自动驾驶预测等。这些研究展示了新颖的网络架构、融合策略与学习算法(如自监督、模型无关、模仿学习),致力于解决数据稀疏、系统鲁棒性、决策优化等核心挑战,凸显该领域的蓬勃活力与广阔前景。

论  文

图片

 01 

基于人工智能驱动的多源信息融合以增强列车位置感知

Enhancing train position perception through AI-driven multi-source information fusion

    本文探究了列车的精确实时定位难题,特别考虑了全球导航卫星系统(GNSS)和惯性导航系统(INS)的集成。为了克服GNSS信号中断期间INS中不断增加的误差,以及与过程和测量噪声相关的不确定性,本文提出了一种基于深度学习的列车定位方法。该方法结合了卷积神经网络(CNN)、长短期记忆(LSTM)和不变扩展卡尔曼滤波器(IEKF)来增强对列车位置的感知,可有效地处理GNSS信号中断并减轻噪声的影响。实验评估和与现有方法的对比分析说明了所提出方法的有效性和鲁棒性。图片图片

(原文Fig.1)总体方法结构

标题:Enhancing train position perception through AI-driven multi-source information fusion (基于人工智能驱动的多源信息融合以增强列车位置感知)

作者:Haifeng Song1, Zheyu Sun2, Hongwei Wang2, Tianwei Qu3, Zixuan Zhang2, Hairong Dong2

机构:1北京航空航天大学;2北京交通大学;3大连机车车辆有限公司.

引用:Song, H., Sun, Z., Wang, H. et al. Enhancing train position perception through AI-driven multi-source information fusion. Control Theory Technol. 21, 425–436 (2023). https://doi.org/10.1007/s11768-023-00158-7

全文链接:https://rdcu.be/ehBlO

微信中文推文:https://mp.weixin.qq.com/s/hVbaHfR0SV9mNCL2sj01nA

 02 

一种混合数据驱动和基于机制的车辆轨迹预测方法

A hybrid data-driven and mechanism-based method for vehicle trajectory prediction

确保自动驾驶车辆安全高效运行,很大程度上依赖于准确预测它们未来的轨迹。现有方法通常采用编码器-解码器神经网络结构,在编码阶段增强信息提取。然而,这些方法常常在解码阶段轨迹制定时忽视了道路规则约束的包含。本文提出了一种新颖的方法,将神经网络和基于规则的约束结合在解码阶段,以提高轨迹预测的准确性,同时确保符合车辆运动学和道路规则。该方法将车辆轨迹分为横向和纵向路线,并利用条件变分自编码器(CVAE)来捕捉轨迹的不确定性。评估结果显示,与基线方法相比,预测前五和前十条轨迹的平均位移误差(ADE)分别减少了32.4%和27.6%

图片

(原文Fig.1)提出的轨迹预测框架

标题:A hybrid data-driven and mechanism-based method for vehicle trajectory prediction (一种混合数据驱动和基于机制的车辆轨迹预测方法)

作者:Haoqi Hu1, Xiangming Xiao2, Bin Li1, Zeyang Zhang2, Lin Zhang1, YanJun Huang1, Hong Chen3

机构:1同济大学汽车学院; 2东风汽车股份有限公司;3同济大学电子与信息工程学院

引用:Hu, H., Xiao, X., Li, B. et al. A hybrid data-driven and mechanism-based method for vehicle trajectory prediction. Control Theory Technol. 21, 301–314 (2023). https://doi.org/10.1007/s11768-023-00170-x

全文链接:https://rdcu.be/ehBnt

微信中文推文:https://mp.weixin.qq.com/s/FkErsob2ALetyj8_MhYXuA

 03 

通过 L 系统生成的合成数据集进行自监督分割

Self-supervised segmentation using synthetic datasets via L-system

    血管分割在许多疾病的诊断以及手术辅助中起着至关重要的作用。随着深度学习的发展,已经提出了许多分割方法,并且分割结果变得越来越精确。然而,这些方法大多基于监督学习,需要大量标注数据作为训练数据。为了解决这一不足,无监督和自监督方法也逐渐受到关注。在本文中,我们通过 L 系统生成合成训练数据集,并利用对抗学习缩小生成数据与真实数据之间的分布差异,从而获得最终的网络模型。我们的方法在 X 射线血管造影动脉疾病(XCAD)数据集上取得了最先进的(SOTA)结果,以近 10.4% 的显著优势领先其他方法。

图片图片

(原文Fig.4)网络结构图

标题:Self-supervised segmentation using synthetic datasets via  L-system (通过 L 系统生成的合成数据集进行自监督分割)

作者:Juntao Huang1,2, Xianhui Wu1,2, Hongsheng Qi1,2

机构:1中国科学院大学数学科学学院;2中国科学院大学 数学与系统科学研究院.

引用:Huang, J., Wu, X. & Qi, H. Self-supervised segmentation using synthetic datasets via L-system. Control Theory Technol. 21, 571–579 (2023). https://doi.org/10.1007/s11768-023-00151-0

全文链接:https://rdcu.be/ehBek

04 用于磁共振图像腰椎分割的多模态分层融合网络

Multi-modality hierarchical fusion network for lumbar spine segmentation with magnetic resonance images

    

    对于脊柱和椎间盘疾病的分析,腰椎的自动组织分割至关重要。由于目标位置连续、集中、边缘特征丰富以及个体差异等因素,传统的自动分割方法表现不佳。由于过去几年深度学习在医学图像分割方面取得了成功,因此它已以多种方式应用于此任务。然而,深度学习方法很少探索腰部组织的多尺度和多模态特征。由于医学图像可用性的不足,有效融合多种数据采集方式进行模型训练对于缓解样本不足的问题至关重要。在本文中,我们提出了一种新颖的多模态分层融合网络(MHFN),通过从多模态磁共振图像中学习鲁棒的特征表示来改进腰椎分割。本文引入了自适应组融合模块(AGFM)来融合各种模式的特征,以提取可能有价值的跨模态特征。此外,为了结合从低到高水平的跨模态特征,我们设计了一种基于AGFM的分层融合结构。根据腰椎多模态MR图像的实验结果,与其他特征融合方法相比,AGFM更有效。为了进一步提高分割精度,我们将我们的网络与基线融合结构进行比较。与基线融合结构(输入级:76.27%,层级:78.10%,决策级:79.14%)相比,我们的网络能够更准确地分割骨折椎骨(85.05%)。

图片

(原文Fig.3)多模态分层融合网络框架

标题:Multi-modality hierarchical fusion network for lumbar spine segmentation with magnetic resonance images (用于磁共振图像腰椎分割的多模态分层融合网络)

作者:Han Yan1,2, Guangtao Zhang1,  Wei Cui1, Zhuliang Yu1,3,4机构:1.华南理工大学自动化科学与工程学院;2.广州市第一人民医院;3.华南理工大学智能工程学院;4.超级机器人研究院(黄埔)

引用:Yan, H., Zhang, G., Cui, W. et al. Multi-modality hierarchical fusion network for lumbar spine segmentation with magnetic resonance images. Control Theory Technol. 22, 612–622 (2024). https://doi.org/10.1007/s11768-024-00231-9

全文链接:https://rdcu.be/ehAQO

微信中文推文:https://mp.weixin.qq.com/s/7uPz2EXDtCLHyXLzUAOqPA

 05 

一种鲁棒策略优化的Lyapunov刻画

A Lyapunov characterization of robust policy optimization

    本文研究了策略优化(特别是高斯-牛顿梯度下降算法,相当于强化学习中的策略迭代)在每次迭代时受到噪声影响的鲁棒性。通过利用输入-状态稳定性的概念和Lyapunov直接法,研究表明,如果噪声足够小,即使在每次迭代都存在噪声的情况下,策略迭代算法也会收敛到最优解的一个小邻域。并给出了噪声的上界和策略最终收敛到的邻域大小的显式表达式。基于Willems基本引理,提出了一种基于学习的策略迭代算法。通过检查与探测信号相关的Hankel矩阵的秩,可以容易地保证持续激励条件。通过策略迭代的输入-状态稳定性,基于学习的策略迭代对测量噪声和未知系统扰动的鲁棒性从理论上得到了证明。进行了多次数值仿真以验证所提出方法的有效性。

标题:A Lyapunov characterization of robust policy optimization (一种鲁棒策略优化的Lyapunov刻画)

作者:Leilei Cui1, Zhong-Ping Jiang1

机构:1纽约大学电气与计算机工程系

引用:Cui, L., Jiang, ZP. A Lyapunov characterization of robust policy optimization. Control Theory Technol. 21, 374–389 (2023). https://doi.org/10.1007/s11768-023-00163-w

全文链接:https://rdcu.be/ehBmy

微信中文推文:https://mp.weixin.qq.com/s/Y6jb48co80lBWrao-GYzVg

 06 

异构多玩家模仿学习

Heterogeneous multi-player imitation learning

    本文研究非线性多人游戏系统中的模仿学习,其中包含异质的控制输入动态。作者提出一种无模型数据驱动的逆强化学习(RL)算法,用于在给定专家的状态和控制输入的情况下,让学习者找到N人纳什专家系统的成本函数。这使我们能够在无需了解专家系统动态的先验知识下,解决模仿学习问题。为实现这一目标,作者提供了一种基本的基于模型算法,该算法建立在强化学习和逆最优控制的基础上

标题:Heterogeneous multi-player imitation learning (异构多玩家模仿学习)

作者:Bosen Lian1, Wenqian Xue2, Frank L. Lewis3

机构:1奥本大学电气与计算机工程系;2东北大学综合自动化过程工业国家重点实验室和国际综合自动化联合研究实验室;3得克萨斯大学阿灵顿分校研究院

引用:Lian, B., Xue, W. & Lewis, F.L. Heterogeneous multi-player imitation learning. Control Theory Technol. 21, 281–291 (2023). https://doi.org/10.1007/s11768-023-00171-w

全文链接:https://rdcu.be/ehBon

微信中文推文:https://mp.weixin.qq.com/s/3iEVSXOCtEtaoqfTDxwUEw

 07 

基于强化学习的输入约束多智能体系统的事件触发H∞一致性控制

Event-triggered H∞ consensus control for input-constrained multi-agent systems via reinforcement learning

    本文针对具有控制约束的非线性二阶多智能体系统 (MAS)提出了一种基于强化学习(RL)的事件触发H∞一致性控制方法。首先,考虑控制约束,将受约束的H∞一致性问题转化为具有非二次性能函数的多玩家零和博弈。然后,提出了一种事件触发控制方法以节省通信资源,并为每个智能体建立了新的触发条件,使触发阈值独立于干扰抑制水平。为了导出能够在最严重扰动的情况下最小化代价函数的最优控制器,定义了一个受约束的Hamilton-Jacobi-Bellman (HJB)方程。由于其强非线性而难以解析求解,因此采用RL方法以获得最优控制器。具体而言,最优性能函数和最坏情况下的扰动由时间触发的评论家网络近似;同时,将最优控制器近似为事件触发的行动者网络。然后,利用Lyapunov分析证明了系统的最终一致有界(UUB)稳定性,并且网络权值误差为UUB。最后,利用仿真例子证明了所提供控制策略的有效性。图片图片

(原文Fig.1)事件触发H∞约束控制策略框图

标题:Event-triggered H∞ consensus control for input-constrained multi-agent systems via reinforcement learning (基于强化学习的输入约束多智能体系统的事件触发H∞一致性控制)

作者:Jinxuan Zhang1, Chang-E Ren1

机构:1首都师范大学信息工程学院

引用:Zhang, J., Ren, CE. Event-triggered H∞ consensus control for input-constrained multi-agent systems via reinforcement learning. Control Theory Technol. 22, 25–38 (2024). https://doi.org/10.1007/s11768-023-00177-4

全文链接:https://rdcu.be/ehBcJ

 08 

基于脉冲神经网络的帆船导航控制系统

Sailboat navigation control system based on spiking neural networks

    本文中,作者提出了一种基于脉冲神经网络(SNN)的帆船导航控制系统的开发。选择这种网络的灵感源于它们在专用硬件上可实现快速低能耗计算的潜力。为了训练系统,本文使用了调制尖峰时变可塑性强化学习规则和基于BindsNET库和USVSim模拟器的仿真环境。本文的目标是开发一种基于脉冲神经网络的控制系统,该系统可以学习一种允许帆船根据航行场景条件,在两点之间以直线或之字形路线和回转的导航策略。作者给出了该问题的数学定义、仿真环境的运行机制、脉冲神经网络控制器和所使用的控制策略。本文获得了425个完成所给导航任务的基于脉冲神经网络控制器,这表明仿真环境和实施的控制策略能够是有效的。最后,将本文的最佳控制器行为与其他算法进行比较,并提出一些可能的策略以改善其性能。

图片图片

(原文Fig.1)航行场景和区域

标题:Sailboat navigation control system based on spiking neural networks (基于脉冲神经网络的帆船导航控制系统)

作者:Nelson Santiago Giraldo1, Sebastián Isaza1, Ricardo Andrés Velásquez1

机构:1哥伦比亚安提奥基亚大学

引用:Giraldo, N.S., Isaza, S. & Velásquez, R.A. Sailboat navigation control system based on spiking neural networks. Control Theory Technol. 21, 489–504 (2023). https://doi.org/10.1007/s11768-023-00150-1

全文链接:https://rdcu.be/ehBiF

微信中文推文:https://mp.weixin.qq.com/s/JWcca3ttffB6ucPYqc9XgA

 09 

基于一维状态空间的LQ均场社会控制问题的无模型方法

Model-free method for LQ mean-field social control problems with one-dimensional state space

    

    本文提出了一种新颖的model-free方法,用于解决具有一维状态空间和乘性噪声的线性二次(LQ)均场控制问题。重点放在了无限时间跨度的LQ设置上,其中解决稳定化或优化的条件可以被阐述为两个代数Riccati方程(AREs)。本文所提出的方法利用积分强化学习技术,迭代地解决依赖于漂移系数的随机ARE(SARE)和其他不定ARE,而无需系统动态的知识。最后通过数值示例来展示所提算法的有效性。

标题:Model-free method for LQ mean-field social control problems with one-dimensional state space (基于一维状态空间的LQ均场社会控制问题的无模型方法)

作者:Zhenhui Xu1, Tielong Shen2

机构:1东京工业大学工学院; 2 上智大学工程与应用科学系

引用:Xu, Z., Shen, T. Model-free method for LQ mean-field social control problems with one-dimensional state space. Control Theory Technol. 22, 479–486 (2024). https://doi.org/10.1007/s11768-024-00210-0

全文链接:https://rdcu.be/ehAT0

微信中文推文:https://mp.weixin.qq.com/s/cwLuGYGqp9ScfWqPjLP3fw

 2023-2024刊期合集 

Volume 22 (February - November 2024)

Issue 4, 2024

Issue 3, 2024 - Special issue on analysis and control of complex systems in honor of the 90th birthday of Professor Huashu Qin

Issue 2, 2024 - Special issue on system identification and estimation

Issue 1, 2024

Volume 21 (February - November 2023)

Issue 4, 2023

Issue 3, 2023 - Special issue on frontiers of control and automation, dedicated to Prof. Ben M. Chen 60th birthday

Issue 2, 2023

Issue 1, 2023 - Special issue on connecting theory and practice with ADRC

 期刊简介 

图片  图片欢迎扫码进入期刊主页

Control Theory and Technology (CTT), 中文名《控制理论与技术》, 创刊于2003年,原刊名为Journal of Control Theory and Applications,2014年刊名更改为Control Theory and Technology。由华南理工大学与中国科学院数学与系统科学研究院联合主办,主要报道系统控制科学中具有新观念、新思想的理论研究成果及其在各个领域中的应用。目前被 ESCI (JIF 1.7)、EI、Scopus (CiteScore 3.12025-4-5更新)、CSCD、INSPEC、ACM 等众多数据库收录, 并于2013–2018年获得两期中国科技期刊国际影响力提升计划项目资助。2017–2021年连续获得“中国最具国际影响力学术期刊”和“中国国际影响力优秀学术期刊”称号,获得广东省高水平科技期刊建设项目(2021-2024年),2022-2024年进入中国科协自动化学科领域高质量科技期刊目录。

官网:https://link.springer.com/journal/11768 (即http://www.springer.com/11768)

https://jcta.ijournals.cn/cta_en/ch/index.aspx

投稿:https://mc03.manuscriptcentral.com/ctt

微信:ControlTheoryTech

微博:ControlTheoryTech

Email:jcta@scut.edu.cn    Tel:020-8711 1464

图片

“扫码关注Control Theory and Technology公众号”



https://wap.sciencenet.cn/blog-3635716-1483037.html

上一篇:欢迎进入Control Theory and Technology期刊的世界!
下一篇:CTT引用量TOP10文章 (2022-2024) | 面向复杂系统的跨领域创新与实践
收藏 IP: 218.192.172.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-4-26 09:52

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部