邹铁枫
用于鲁棒视觉跟踪的高效卷积混合Transformer孪生网络
2025-4-30 08:50
阅读:329

用于鲁棒视觉跟踪的高效卷积混合Transformer孪生网络

编辑荐语

    本期将给大家分享“Effective convolution mixed Transformer Siamese network for robust visual tracking (用于鲁棒视觉跟踪的高效卷积混合Transformer孪生网络)”。如您对本期相关内容有好的理解与建议,欢迎评论区留言。 

    近几年,随着自动驾驶、智能监控等应用需求的快速增长,视觉目标跟踪迎来了蓬勃发展的黄金时期。该任务旨在从视频序列中准确预测任意目标的位置和大小,但由于初始信息的限制以及遮挡、光照等因素的干扰,目标跟踪仍面临诸多挑战。现有算法主要分为基于相关滤波(CF)和深度学习(DL)两类,其中孪生网络和Transformer是DL跟踪器中的核心架构。为提升视觉目标跟踪的性能,本文将聚焦于如何有效融合CNN在局部特征提取方面的优势与Transformer在捕捉长距离依赖关系方面的强大建模能力。作者重点探索了一种高效的孪生网络结构设计,旨在保持实时性的同时,增强模型对复杂场景下目标表征与定位的能力。

Effective convolution mixed Transformer Siamese network for robust visual tracking

用于鲁棒视觉跟踪的高效卷积混合Transformer孪生网络

Lin Chen1,2 · Yungang Liu1 · Yuan Wang1

机构:1 山东大学控制科学与工程学院; 2 聊城大学计算机学院

引用:Chen, L., Liu, Y. & Wang, Y. Effective convolution mixed Transformer Siamese network for robust visual tracking. Control Theory Technol. (2025). https://doi.org/10.1007/s11768-025-00251-z

全文链接:https://rdcu.be/eh4Ge

摘 要  

    孪生网络跟踪算法通常采用卷积神经网络(CNNs)作为特征提取器,因为它们具有提取深层判别特征的能力。然而,CNN中的卷积核具有有限的感受野,这限制了其捕捉全局特征依赖性的能力,而全局依赖性对于目标检测尤为重要,特别是在目标经历大尺度变化或移动时。鉴于此,本文开发了一种新型网络,称为高效卷积混合Transformer孪生网络(SiamCMT),用于视觉跟踪。该网络结合了基于CNN和基于Transformer的架构,以同时捕获局部信息和长距离依赖性。具体而言,本文设计了一个基于Transformer的模块,称为轻量级多头注意力(LWMHA),该模块可以灵活地嵌入到CNN中,从而提高网络的表征能力。此外,引入了一种分层级特征聚合机制,有效整合来自不同层级的特征信息。该机制结合位置信息与语义信息,增强了特征表达的丰富性,使SiamCMT更好地定位和跟踪目标。此外,引入了一种通道注意力机制,区分不同通道的贡献,以增强重要通道并抑制其他通道。最后,在七个具有挑战性的数据集(即OTB2015、UAV123、GOT10K、LaSOT、DTB70、UAVTrack112_L和VOT2018)上的大量实验表明,所提算法是有效的。特别地,该算法在UAV123数据集上的精度和成功率分别比基线提高了3.5%和3.1%,并以59.77 FPS的实时速度运行。

引 言  

 

    过去十年中,各种实际应用(如无人机、机器人、视频监控以及人机交互)对视觉目标跟踪算法的需求正在不断增长。视觉目标跟踪的任务是在视频序列中预测任意目标的大小和位置,这已成为计算机视觉领域的一个活跃研究方向。尽管该方向已经取得了显著进展,但由于仅在第一帧提供有限的目标信息以及遮挡、光照、变形等各种因素对跟踪性能的影响,准确的目标跟踪仍然是一项具有挑战性的任务。     

在现有的跟踪算法中,基于相关滤波(CF)的跟踪器和基于深度学习(DL)的跟踪器是两个主要分支。CF跟踪器通过最小化目标函数来学习目标的外观模型,然后在每一帧中定位被跟踪目标。由于其较低的计算复杂度和较高的实时跟踪速度,这类跟踪器取得了很大的成功。然而,由于用于建模的浅层特征判别能力较弱,这类跟踪器的性能通常不尽如人意。     

对于基于深度学习的跟踪器,当前流行的架构主要围绕孪生网络(Siamese-based)和Transformer架构展开。孪生网络将目标跟踪任务视为模板匹配问题,通常使用卷积神经网络(CNNs)分别提取模板区域和搜索区域的特征以进行相似性计算。具体而言,开创性的工作SiamFC采用了改进的AlexNet作为特征提取器,在跟踪性能和效率之间取得了良好的平衡。此后,许多后续算法引入了许多技术(如区域提议网络、更深的CNN、多尺度搜索方案、无锚机制等)来提升其判别能力。然而,这些跟踪器都使用CNN作为特征提取器。由于卷积核的感受野有限,这些跟踪器在提取复杂场景中目标检测所需的长距离信息方面表现不佳。     

近年来,Transformer在机器翻译、图像或视频分类和目标检测领域取得了显著进展。在目标跟踪方面,许多近期提出的算法(如TransT、MixFormer、STARK、E.T.Track)通过使用Transformer显著提升了跟踪性能。然而,尽管在精度和鲁棒性方面有所改进,但纯Transformer架构在跟踪任务中相比CNN架构更容易出现计算效率低下和GPU内存不足的问题。这是因为Transformer中自注意力模块的计算和内存成本是输入分辨率的平方关系(O(N²C)),而CNN则是线性关系(O(NC²))。     

CNN擅长从局部区域中提取特征(如边缘和纹理),从而有效捕捉目标的局部信息。另一方面,Transformer具有全局关系建模能力,能够提取长距离特征依赖性。在复杂场景中,尤其是目标经历大尺度变化或快速运动时,长距离特征依赖性对目标的准确定位至关重要。在本文中,为了充分提取图像的局部和长距离特征信息,结合CNN和Transformer的优势,开发了一种新型的高效卷积混合Transformer孪生网络(SiamCMT)用于视觉跟踪。    

具体而言,本文提出了一种基于Transformer的模块,称为轻量级多头注意力(LWMHA)。该模块简单而有效,可便捷地嵌入到CNN中。值得注意的是,本文采用了分阶段架构网络(如ResNet),并灵活地将所提出的模块嵌入到各阶段之间。此外,跟踪任务需要语义信息和位置信息以更好地寻找和定位目标,因此需要同时考虑高层次和低层次特征。为此,引入了一种分阶段特征聚合框架,利用来自多个阶段的特征,从而帮助实现更好的交叉相关操作。     

此外,本文认为,不同通道的特征对目标表示的贡献是不同的,不应被一视同仁。基于此,引入了通道注意力权重,以选择性地增强重要特征,从而进一步提升跟踪性能。图1展示了所提出的跟踪器SiamCMT的主要流程。     

本文的贡献总结如下: 

  1. 提出了一种高效卷积混合Transformer孪生网络SiamCMT,用于视觉跟踪。所提出的SiamCMT能够提取图像的长距离依赖性,弥补了纯CNN骨干网络的不足。 

  2. 提出了一种简单但有效的基于Transformer的模块LWMHA,该模块可以灵活嵌入到CNN中。我们探索了多种嵌入LWMHA模块的策略,以提升性能。 

  3. 为了充分表示目标,我们引入了一种分层级特征聚合机制。同时,利用通道注意力机制突出重要通道并抑制其他通道。 

  4. 在七个具有挑战性的基准数据集上进行了广泛的实验,所提出的SiamCMT相比其他算法表现出优越的性能,并以54.25 FPS的实时速度运行。

Fig. 1

(原文Fig.1) 提出的跟踪网络架构

Fig. 4

(原文Fig.4)可视化结果展示

  结 论  

    本文提出了一种新颖的卷积混合Transformer孪生网络(SiamCMT),用于视觉跟踪,并支持端到端训练。得益于所提出的LWMHA模块,模型能够同时提取局部和长距离结构信息,从而更好地表征图像。同时,分层级特征聚合机制结合了低层和高层特征来表示目标,这对SiamCMT更好地寻找和定位目标具有重要意义。此外,通道注意力模块能够选择性地增强重要通道,从而进一步提升了跟踪性能。在七个具有挑战性的跟踪基准数据集上进行了充足的实验,评估SiamCMT的有效性。值得注意的是,与其他顶尖跟踪器相比,所提出的跟踪器在实时速度达到54.25 FPS(七个基准数据集的平均值)的情况下,表现出了卓越的跟踪性能。

作者介绍

图片

Lin Chen

2017年获得华北电力大学自动化学院硕士学位,并于2024年获得山东大学控制科学与工程学院博士学位。她目前在聊城大学计算机学院工作。她的研究兴趣包括计算机视觉、目标跟踪、动作识别以及深度学习。

图片

Yungang Liu

2000年在上海交通大学获得控制理论与控制工程博士学位。目前是山东大学控制科学与工程学院的长江学者特聘教授。他是机器智能与系统控制教育部重点实验室主任,山东大学人工智能与系统控制研究所所长,山东省电子学会人工智能与机器视觉技术委员会主任,以及山东大学-IBM大数据与分析研究中心主任。他还担任智能无人系统教育部工程研究中心副主任。研究方向包括随机控制、非线性控制设计与系统分析、协同控制、分布参数系统、自适应控制及其应用、机器人与运动控制,以及人工智能。刘教授曾获得国家杰出青年科学基金、国务院政府特殊津贴以及山东省泰山学者攀登计划特聘教授。他曾获2004年中国控制会议关肇直奖、2015年国家自然科学二等奖、2018年中国自动化学会优秀博士学位论文奖等。

图片

Yuan Wang

2018年获得内蒙古工业大学自动化专业学士学位,并于2024年在山东大学控制科学与工程学院获得博士学位。目前,她是山东大学的特别资助博士后。她的研究兴趣包括非线性系统、自适应控制、机器人与运动控制,以及人工智能。

图片  图片

欢迎扫码进入期刊主页

Control Theory and Technology (CTT), 中文名《控制理论与技术》, 创刊于2003年,原刊名为Journal of Control Theory and Applications,2014年刊名更改为Control Theory and Technology。由华南理工大学与中国科学院数学与系统科学研究院联合主办,主要报道系统控制科学中具有新观念、新思想的理论研究成果及其在各个领域中的应用。目前被 ESCI (JIF 1.7)、EI、Scopus (CiteScore 3.1,更新于2025年4月5日)、CSCD、INSPEC、ACM 等众多数据库收录, 并于2013–2018年获得两期中国科技期刊国际影响力提升计划项目资助。2017–2021年连续获得“中国最具国际影响力学术期刊”和“中国国际影响力优秀学术期刊”称号,获得广东省高水平科技期刊建设项目(2021-2024年),2022-2024年进入中国科协自动化学科领域高质量科技期刊目录。

官网https://link.springer.com/journal/11768 (即http://www.springer.com/11768)

https://jcta.ijournals.cn/cta_en/ch/index.aspx

投稿https://mc03.manuscriptcentral.com/ctt

微信:ControlTheoryTech (欢迎扫码关注期刊微信公众号)

微博ControlTheoryTech

Email:jcta@scut.edu.cn    

Tel:020-8711 1464

 2023-2024刊期合集 

Volume 22 (February - November 2024)

Issue 4, 2024

Issue 3, 2024 - Special issue on analysis and control of complex systems in honor of the 90th birthday of Professor Huashu Qin

Issue 2, 2024 - Special issue on system identification and estimation

Issue 1, 2024

Volume 21 (February - November 2023)

Issue 4, 2023

Issue 3, 2023 - Special issue on frontiers of control and automation, dedicated to Prof. Ben M. Chen 60th birthday

Issue 2, 2023

Issue 1, 2023 - Special issue on connecting theory and practice with ADRC

转载本文请联系原作者获取授权,同时请注明本文来自邹铁枫科学网博客。

链接地址:https://wap.sciencenet.cn/blog-3635716-1484001.html?mobile=1

收藏

分享到:

当前推荐数:0
推荐到博客首页
网友评论0 条评论
确定删除指定的回复吗?
确定删除本博文吗?