Chenfiona的个人博客分享 http://blog.sciencenet.cn/u/Chenfiona

博文

张笑钦团队 | 综述:基于深度学习的视觉跟踪方法进展

已有 1634 次阅读 2021-6-2 16:54 |个人分类:好文推荐|系统分类:论文交流

人眼可以比较轻松地在一段时间内持续定位特定目标,而在计算机视觉领域,这一任务便是高级计算机任务之一——"目标跟踪"。但对计算机而言,在不同场景下实现目标跟踪任务是一件较为困难的事情,尤其在跟踪目标发生剧烈形变、被其他目标遮挡或出现相似物体干扰等复杂情况下。因此,在计算机视觉领域,目标跟踪(特指单目标跟踪)是指:给出目标在跟踪视频第一帧中的初始状态(如位置,尺寸),自动估计目标物体在后续帧中的状态和移动轨迹。近年来,深度学习方法开始在目标跟踪领域崭露头角,并逐渐在性能上超越传统方法。温州大学人工智能与计算机学院院长张笑钦教授团队综述了基于深度学习的视觉跟踪方法进展,相关成果已发表于IJAC,全文免费下载!


Springer截图.jpg



image.png

什么是"单目标跟踪"?如下图所示,三张图片分别是同一视频的第1、第40和第80帧。在第1帧给出一个跑步者的边框之后,后续的第40帧、第80帧,边框依然准确对同一个跑步者进行框定。以上展示的其实就是目标跟踪(visual object tracking)的过程。也就是说,目标跟踪(特指单目标跟踪)是指:给出目标在跟踪视频第一帧中的初始状态(如位置,尺寸),自动估计目标物体在后续帧中的状态。


插图1.jpg

 图片来自网络


单目标跟踪(Single object tracking)是计算机视觉和视频处理领域一项基本且关键的任务,其在导航、机器人、交通控制和增强现实等行业中应用十分广泛。因此,不少研究者致力于解决单目标跟踪任务衍生的各种挑战,试图开发出有效的跟踪算法。然而,由于难以平衡跟踪算法的准确性和高效性,这项任务仍然十分具有挑战性。此外,现有算法在复杂场景下(如背景杂波、运动模糊、视点变化、光照变化等)的鲁棒性也是一个亟需研究的热点问题。


单目标跟踪旨在从视频的所有帧中定位一个特定目标。为此,跟踪算法通常是从目标外观模板(template of target appearance)和搜索框(search frame)中提取一定特征,然后对这些特征进行反复匹配来定位目标。为了保留有效的目标模板,在跟踪过程中,目标出现的初始帧所呈现的外观将作为初始值(initialization),并不断更新。而匹配框架(matching framework)则是在整个跟踪过程中根据初始值等有效信息进行响应。


因此,整个过程所提取的特征应具有代表性,保证可准确区分目标和背景。传统的跟踪算法由于提取出来的特征不能全面反映目标的特征,往往性能欠佳。据此,传统跟踪算法可从两方面改进:一是寻找能够更好反映目标外观(characteristics of the object)的特征(features),二是提出有效的匹配框架。例如,基于模板的(template-based)、基于子空间的(subspace-based)以及稀疏表示(sparse-representation)的方法会使用某些元素来表示目标,而不是直接使用裁剪的像素(cropped pixels)或图像块(image patches)来表示。诸如boosting、支持向量机(support vector machine)、随机森林(random forest)、多示例学习(multiple instance learning)以及度量学习(metric learning)等框架也被用于提升跟踪算法的匹配能力。


随着深度学习机制(deep learning mechanisms)的发展,许多研究者着手开展计算机视觉、语音识别、自然语言处理等任务。在众多突破的推动下,深度学习机制也被引入单目标跟踪任务中。同时,一些跟踪数据集,如OTB-2013及VOT-2013相继提出,用以测试与评价跟踪算法的性能。


一些论文也回顾了基于深度学习的跟踪算法的进展和挑战。然而,数据统计结果显示(见表1),这些论文都没有综述近期发表在顶级会议和期刊上的跟踪方法。此外,现有的研究大多集中于根据深度跟踪器的方法对其进行分类,或对其性能进行评估。可以注意到,现有的综述没有详细研究当前深度跟踪器的具体组成部分(details specific components)。


360截图20210427171807995.jpg

 图片来自文章


为促进基于深度学习的单目标跟踪算法的发展,本文总结了现有的基于深度学习的跟踪算法的一般组成部分(general components),并介绍了深度神经网络的常用组成部分(popular components),以及提高深度神经网络的特征表征能力(representative ability of the features)。此外,本文通过收集和分析基准数据集上的指标来比较近期提出的深度跟踪器(deep trackers)。通过这种方式,本文得出了一些重要的观察结果。例如,通过比较,我们发现注意力机制(attention mechanisms)被广泛用于在线更新方法(online-updating methods)和离线训练方法(offline-trained ones)的结合上。另一方面,由于深度跟踪器中不同的组件有不同的特性,仅改进单个组件有时无法改进跟踪过程。


本文其余部分组织如下:第二部分对有效深度学习方法的基本框架和新机制进行了列举。第三部分介绍了深度跟踪器的一般组件(general components)。第四部分详细说明了常用的跟踪数据集(popular tracking datasets),并进行了比较。本文还介绍了一些常用指标(popular metrics),可在常用跟踪数据集(popular tracking datasets)中评估跟踪性能。第五部分基于这些指标,对近期发布的深度跟踪器的性能进行了分析和比较。基于这些比较结果,第六部分给出了若干观察结果。第七部分为本文结论。



image.png

​Advances in Deep Learning Methods for Visual Tracking: Literature Review and Fundamentals

Xiao-Qin Zhang, Run-Hua Jiang, Chen-Xiang Fan, Tian-Yu Tong, Tao Wang, Peng-Cheng Huang

https://link.springer.com/article/10.1007/s11633-020-1274-8     

http://www.ijac.net/en/article/doi/10.1007/s11633-020-1274-8    


特别感谢论文作者:温州大学张笑钦教授、蒋润华同学、范晨翔同学、童天宇同学、王涛同学、黄鹏程同学对以上内容的审阅和修改!



image.png

重磅 | 全球计算机领域Top1000期刊 & 科学家榜单发布

@全体科研人,"十四五"规划圈出了攻关重点!

直播回放 | 公茂果主讲:深度神经网络的结构优化

回放 & PPT | 澳科学院院士Brian Anderson最新报告

IJAC 2020高被引论文 & 优秀审稿人

重磅 | 2021年国际学术会议参考列表

全球前列!IJAC"世界期刊影响力指数(WJCI)"喜人

最新 | 《2020全球工程前沿》全文

最新 | 2020研究前沿及热点解读



image.png

毋立芳团队 | 综述:视频中的群体行为识别

基于机器学习探秘神经科学,解码思想、记忆、情绪......

必读 | 10篇最新AI好文

高效+高精度 | 汽车尾气排放趋势预测新框架

综述 | 进化计算在大规模多目标优化问题中的进展

公茂果团队 | 综述:计算智能在遥感图像配准中的应用

新模型!模拟人眼预测图像质量,失真也不怕

新兴技术 | 经典CNN对2D&3D掌纹及掌静脉识别的性能评估

2019-2020高被引学者论文集锦



关注视频号.jpg

视频号二维码_副本.png
公众号名片.jpg



https://wap.sciencenet.cn/blog-749317-1289392.html

上一篇:重磅 | 全球计算机领域Top1000期刊 & 科学家榜单发布
下一篇:基于神经架构搜索技术(NAS)的2D&3D掌纹和掌静脉识别
收藏 IP: 159.226.181.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-3-29 18:49

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部