引用本文
李绍明, 储珺, 冷璐, 涂序继. 目标跟踪中基于IoU和中心点距离预测的尺度估计. 自动化学报, 2024, 50(8): 1646−1659 doi: 10.16383/j.aas.c210356
Li Shao-Ming, Chu Jun, Leng Lu, Tu Xu-Ji. Accurate scale estimation with IoU and distance between centroids for object tracking. Acta Automatica Sinica, 2024, 50(8): 1646−1659 doi: 10.16383/j.aas.c210356
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c210356
关键词
目标跟踪,交并比,尺度估计,中心点距离
摘要
通过分析基于交并比(Intersection over union, IoU)预测的尺度估计模型的梯度更新过程, 发现其在训练和推理过程仅将IoU作为度量, 缺乏对预测框和真实目标框中心点距离的约束, 导致外观模型更新过程中模板受到污染, 前景和背景分类时定位出现偏差. 基于此发现, 构建了一种结合IoU和中心点距离的新度量NDIoU (Normalization distance IoU), 在此基础上提出一种新的尺度估计方法, 并将其嵌入判别式跟踪框架. 即在训练阶段以NDIoU为标签, 设计了具有中心点距离约束的损失函数监督网络的学习, 在线推理期间通过最大化NDIoU微调目标尺度, 以帮助外观模型更新时获得更加准确的样本. 在七个数据集上与相关主流方法进行对比, 所提方法的综合性能优于所有对比算法. 特别是在GOT-10k数据集上, 所提方法的AO、SR0.50和SR0.75三个指标达到了65.4%、78.7%和53.4%, 分别超过基线模型4.3%、7.0%和4.2%.
文章导读
目标跟踪技术通过分析视频第一帧中的目标, 在后续视频帧中估计出目标的运动轨迹. 跟踪过程通常使用外观模型对目标进行初定位, 然后在该位置估计目标的尺度, 用于表示目标的位置和大小. 再根据当前帧中目标的位置和尺度进行采样, 利用得到的样本更新目标外观模型, 寻找下一帧目标的位置. 因此, 准确的尺度估计可以帮助在线更新过程准确采集目标样本, 以获得更加鲁棒的外观模型, 提高定位精度.
通用目标跟踪在推断期间只给定初始帧的目标信息, 跟踪模型需要在形变、遮挡等多种干扰因素下预测后续帧的目标尺度, 因此跟踪任务中的尺度估计极具挑战性[1-4].
传统跟踪算法(如SRCF[5], ASRCF[6], DSST[7], SAMF[8]等)使用多尺度搜索方法估计被跟踪目标的尺度. Danelljan等[7]提出学习独立的一维尺度相关滤波器, 将多个不同大小的图像块缩放到固定尺度, 并转换为一维的特征向量进行描述, 再使用尺度相关滤波器对多个图像块的特征向量执行相关操作, 响应最大图像块的尺度则为当前目标的尺度. Li等[8]提出设置尺度因子池, 利用多尺度采样获得多个不同尺度的图像块, 将采集的样本缩放到固定尺度进行跟踪, 响应值最大的尺度为当前帧的目标尺度. 以上方法需要对选择的不同尺度图像块重复进行特征提取, 难以满足跟踪的实时性要求.
基于深度学习的目标跟踪算法(如ATOM[9], SiamRPN[10], SiamMask[11], Ocean[12], SiamFC++[13], DiMP[14], PrDiMP[15], SiamRPN++[16], KYS[17], DCFST[32]等)使用大规模数据离线训练边界框回归分支得到目标的尺度估计模型, 在性能上超越了传统的跟踪方法. 与目标检测算法(如Fast R-CNN[18], Faster R-CNN[19], IOUNet[20]等)类似, 这些方法通常通过直接或间接预测边界框的坐标来训练尺度估计模型. 基于深度学习的跟踪算法可以分为Siamese系列跟踪算法和在线判别式跟踪算法.
Siamese系列跟踪算法[10-13, 16]使用检测中的边界框回归, 通过离线学习建立目标的尺度估计模型. 此类方法通常使用训练集中目标的坐标信息监督网络的学习, 引入尺度先验信息, 并且该类方法将离线训练好的模型直接用于尺度估计, 缺乏对目标外观变化的自适应过程, 对目标尺度回归不准确.
在线判别式跟踪方法[9, 14, 17]基于Jiang等[20]提出的边界框回归方法对目标的尺度进行估计. 这类方法首先对交并比(Intersection over union, IoU)预测模型进行离线训练, 然后在在线跟踪过程中对初始化的边界框进行微调, 最后选择IoU排名前k个边界框的平均值作为被跟踪目标的尺度. 基于IoU预测的尺度估计方法能够根据目标外观变化对目标的尺度进行微调, 使用对目标尺度不敏感的信息监督网络学习, 因此更加稳定可靠[15].
跟踪成功率和跟踪精度是评价目标跟踪性能的主要指标. 跟踪成功率为预测框与真实框的重叠度(IoU)超过阈值的帧数占视频总帧数的比例, 而跟踪精度则衡量预测框与真实框中心点距离的误差. 实验中发现基于IoU预测的尺度估计的目标跟踪框架有较高的跟踪成功率, 但跟踪精度较低. 分析认为有两个方面的原因: 1)基于IoU预测的尺度估计在模型训练过程中, 当候选框和真实框的IoU相同但中心点距离不同时, 用于监督IoU预测分支学习的标签相同, 对具有相同IoU但中心点距离不同的候选框进行同等优化, 忽略了中心点距离这一重要信息; 2)在判别式跟踪方法中, 目标外观模型更新时需要利用成功跟踪的历史帧信息. 尺度估计不准确导致用于外观模型更新的样本无法准确表示目标, 污染外观模型, 影响后续的定位, 进而影响后续的目标尺度估计.
针对以上问题, 本文从尺度估计模型训练和在线推理时参数梯度更新的角度, 分析基于IoU预测的尺度估计模型缺陷, 提出结合IoU和中心点距离预测的尺度估计方法, 并以此构建新的损失函数来学习尺度估计模型. 引入结合IoU和归一化中心点距离的度量NDIoU (Normalization distance IoU)作为尺度估计分支的输出, 在确保较高跟踪成功率的同时, 跟踪精度也得到进一步提升. 同时可以获得更加准确的历史帧目标样本用于外观模型更新, 反哺在线跟踪以得到更加鲁棒的外观模型. 本文的主要贡献如下:
1) 分析中心点距离和IoU在目标跟踪中的作用, 提出了新的目标跟踪尺度估计框架, 增强目标定位的准确性, 在保证跟踪成功率的同时提高跟踪精度.
2) 引入NDIoU, 结合判别式目标跟踪, 构建了同时兼顾成功率和精度的目标尺度估计损失.
3) 本文算法在OTB-100[1]、UAV123[21]、VOT
图 1 IoU相同但中心点距离不同的情况(红色代表候选的边界框, 绿色代表真实边界框)
图 2 标准化中心点之间的距离
图 4 在视频序列Dinosaur上跟踪的结果可视化
结合判别式目标跟踪, 本文提出基于NDIoU预测的目标尺度估计框架, 并给出了基于NDIoU预测的损失函数, 解决了基于IoU预测的尺度估计模型缺乏中心点距离的约束导致目标尺度估计不准确的问题. 结合尺度估计模型参数的学习过程, 分析了基于IoU预测的尺度估计模型存在的问题. 根据分析的结果, 提出结合IoU和中心点距离预测(NDIoU)的尺度估计模型. 使用该模型得到的目标样本进行外观模型的更新, 增加了目标定位的准确性. 实验结果表明, 在保证算法速度能够实时的情况下, 本文所提出的方法有效提高了目标尺度回归的精度和跟踪的成功率. 最后, 将本文方法在OTB-100、UAV123、VOT2018、GOT-10k、LaSOT、TrackingNet、TC128七个主流数据集上与当前相关的主流SOTA方法进行比较, 本文所提出的方法优于相关的比较算法. 本文方法只从网络预测的度量方面提高了尺度估计的精度, 后续将结合外观模型提高算法的鲁棒性.
作者简介
李绍明
南昌航空大学软件学院硕士研究生. 主要研究方向为计算机视觉和目标跟踪. E-mail: thorn_mo1905@163.com
储珺
南昌航空大学软件学院教授. 主要研究方向为计算机视觉和模式识别. 本文通信作者.E-mail: chuj@nchu.edu.cn
冷璐
南昌航空大学软件学院教授. 主要研究方向为图像处理, 生物特征模板保护和生物特征识别. E-mail: leng@nchu.edu.cn
涂序继
南昌航空大学软件学院讲师. 主要研究方向为计算机视觉和图像处理. E-mail: 71068@nchu.edu.cn
转载本文请联系原作者获取授权,同时请注明本文来自欧彦科学网博客。
链接地址:https://wap.sciencenet.cn/blog-3291369-1451637.html?mobile=1
收藏