欧彦
基于深度匹配的由稀疏到稠密大位移运动光流估计
2022-9-26 16:36
阅读:1655

引用本文

 

陈震, 张道文, 张聪炫, 汪洋. 基于深度匹配的由稀疏到稠密大位移运动光流估计. 自动化学报, 2022, 48(9): 2316−2326 doi: 10.16383/j.aas.c190716

Chen Zhen, Zhang Dao-Wen, Zhang Cong-Xuan, Wang Yang. Sparse-to-dense large displacement motion optical flow estimation based on deep matching. Acta Automatica Sinica, 2022, 48(9): 2316−2326 doi: 10.16383/j.aas.c190716

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190716

 

关键词

 

稠密光流,深度匹配,邻域支持,图像网格,全局优化 

 

摘要

 

针对非刚性大位移运动场景的光流计算准确性与鲁棒性问题, 提出一种基于深度匹配的由稀疏到稠密大位移运动光流估计方法. 首先利用深度匹配模型计算图像序列相邻帧的初始稀疏运动场; 其次采用网格化邻域支持优化模型筛选具有较高置信度的图像网格和匹配像素点, 获得鲁棒的稀疏运动场; 然后对稀疏运动场进行边缘保护稠密插值, 并设计全局能量泛函优化求解稠密光流场. 最后分别利用MPI-Sintel和KITTI数据库提供的测试图像集对本文方法和Classic + NL, DeepFlow, EpicFlow以及FlowNetS等变分模型、匹配策略和深度学习光流计算方法进行综合对比与分析, 实验结果表明本文方法相对于其他方法具有更高的光流计算精度, 尤其在非刚性大位移和运动遮挡区域具有更好的鲁棒性与可靠性.

 

文章导读

 

光流反映了图像序列像素点亮度的时空域变化与图像中物体运动及结构的关系, 其不仅包含了被观察物体的运动参数, 而且携带丰富的三维结构信息. 因此, 光流计算技术广泛引用于各类高级视觉任务, 例如机器人视觉系统[1]、异常行为检测[2]、无人机导航与避障[3]和医学影像分析等[4].

 

20世纪80年代, Horn等[5]首次提出光流概念和计算方法后, 针对光流计算模型和优化方法的研究不断涌现. 根据研究路线的不同, 光流计算技术研究可大致分为3类: 1)变分光流计算技术; 2)图像匹配光流计算技术; 3)深度学习光流计算技术. 在光流计算研究早期, 受益于变分模型能够产生稠密光流场且具有计算精度高、拓展性强等显著优点, 变分光流计算技术成为主流方法. 针对光照变化问题, Brox等[6]提出基于图像梯度的守恒假设模型, 提高了亮度突变下数据项的可靠性. 针对光流计算的鲁棒性问题, Sun等[7]提出基于非局部约束的光流估计模型, 采用加权中值滤波在图像金字塔各层消除溢出点对光流计算的影响. 针对全局优化模型对图像噪声敏感的问题, Drulea等[8]设计全局与局部结合的优化策略, 有效提高了光流计算的抗噪性. 针对传统平滑模型易导致边缘模糊的问题, Perona等[9]提出基于图像结构张量的光流扩散模型, 通过控制光流在图像边缘不同方向的扩散程度抑制了边缘模糊现象. 针对运动边界的过度分割问题, Weickert等[10]提出基于光流驱动的各向异性扩散策略, 使得光流结果更加体现运动边缘细节. 鉴于图像边缘和运动边界并不完全重合, Zimmer等[11]联合图像梯度各项同性扩散与光流控制各向异性扩散策略设计自适应平滑项, 使得光流估计结果既贴合图像边缘又充分体现运动边界. 然而, 由于该类方法需采用迭代运算最小化能量泛函, 导致其时间消耗过大.

 

近年来, 随着深度学习理论与技术的快速发展, 基于卷积神经网络的光流计算技术成为研究热点. Dosovitskiy等[12]首先构建了基于有监督学习的光流估计模型FlowNet, 该研究验证了通过卷积架构直接估计原始图像光流的可行性. 针对FlowNet模型光流估计精度较低的问题, Ilg 等[13]采用网络堆叠策略提高网络深度, 并设计FlowNetSD模型估计小位移运动光流, 大幅提高了网络模型的光流预测精度. 为降低网络模型的复杂度, Ranjan 等[14]将空间金字塔与卷积神经网络相结合, 通过图像变形技术处理大位移运动, 显著减小了模型的尺寸和参数量. 针对卷积操作易导致光流估计结果过于平滑的问题, Hui等[15]将金字塔特征提取网络与光流估计网络分开处理, 通过引入正则化项保护了光流的边缘结构信息. 针对遮挡区域光流估计的可靠性问题, 文献[16]通过图像序列前向与后向光流耦合图像遮挡区域, 并设计基于遮挡检测的光流估计网络模型, 提高了运动遮挡图像序列光流估计鲁棒性. 虽然深度学习光流模型在计算精度和效率等方面已取得突破性进展, 但是该类方法通常需要大量标签数据训练模型参数, 导致现阶段难以直接应用于现实场景的光流估计任务.

 

图像匹配光流计算技术是通过像素点匹配关系确定图像运动场, 因此对大位移运动具有较好的准确性和鲁棒性. Brox等[17]首先提出在光流估计能量泛函引入基于刚性描述子的匹配约束项, 提高了刚性大位移运动场景下光流计算的准确性. 针对传统匹配算法在弱纹理区域难以有效匹配的问题, Weinzaepfel等[18]利用交错卷积与最大池化操作进行稠密采样求解像素点匹配关系, 有效提高了弱纹理区域的光流计算精度. 针对非刚性大位移运动光流计算的准确性问题, 张聪炫等[19]提出基于非刚性稠密匹配的大位移光流计算方法, 有效提高了非刚性大位移运动场景下光流估计的精度与鲁棒性. Hu等[20]采用金字塔分层迭代优化策略求解图像局部块匹配关系, 显著改善了光流估计的噪声问题. 针对光流计算在遮挡、运动边界和非刚性运动等情况下易产生运动边界模糊的问题, Revaud等[21]采用图像边缘驱动的稠密插值策略初始化光流估计能量泛函, 实验证明该方法对大位移和运动遮挡具有很好的边缘保护作用. 针对稠密插值模型易受匹配噪声影响的问题, Hu等[22]提出基于分段滤波的超像素匹配光流估计方法, 显著降低了匹配噪声对光流估计精度的影响.

 

现阶段, 图像匹配光流计算方法已成为解决大位移运动光流计算准确性和可靠性问题的重要手段, 但是该类方法在复杂场景、非刚性运动和运动模糊等图像区域易产生错误匹配, 导致光流估计效果不佳. 针对以上问题, 本文提出基于深度匹配的由稀疏到稠密大位移光流计算方法, 首先利用深度匹配计算初始稀疏运动场, 然后采用邻域支持优化模型剔除错误匹配像素点, 获得鲁棒稀疏运动场; 最后对稀疏运动场进行稠密插值并最小化能量泛函求解稠密光流. 实验结果表明本文方法具有较高的光流估计精度, 尤其对大位移、非刚性运动以及运动遮挡等困难场景具有较好的鲁棒性.

图1 基于区域划分的深度匹配采样窗口示意图 ((a)参考帧采样窗口; (b)传统匹配方法采样窗口;(c)深度匹配算法采样窗口)

图4 不同参数设置对本文光流估计精度的影响

 

本文提出了一种基于深度匹配的由稀疏到稠密大位移运动光流计算方法. 首先, 使用深度匹配模型求解相邻两帧图像间初始稀疏运动场; 然后采用邻域支持模型对初始运动场进行优化获得鲁棒稀疏运动场; 最后对稀疏运动场进行由稀疏到稠密插值, 并根据全局能量泛函求解全局最优化稠密光流. 实验结果表明本文方法具有较高的光流估计精度, 尤其针对运动遮挡和非刚性大位移等困难运动场景具有更好的鲁棒性和可靠性.

 

虽然本文方法针对大位移、运动遮挡与非刚性形变等困难场景图像序列的光流估计精度优于各对比光流计算方法, 但是由于本文方法须对稠密光流进行全局迭代优化, 因此导致时间消耗较大. 为提高本文方法的使用价值, 后续将研究GPU并行加速计算策略, 在提高非刚性大位移运动光流估计精度的同时大幅减少时间消耗, 尽可能满足工程实际需求.

 

作者简介

 

陈震

南昌航空大学测试与光电工程学院教授. 主要研究方向为图像检测与智能识别, 计算机视觉.E-mail: dr_chenzhen@163.com

 

张道文

南昌航空大学测试与光电工程学院硕士研究生. 主要研究方向为图像处理与模式识别.E-mail: daowenzhang@163.com

 

张聪炫

南昌航空大学测试与光电工程学院教授. 主要研究方向为图像检测与智能识别. 本文通信作者. E-mail: zcxdsg@163.com

 

汪洋

南昌航空大学测试与光电工程学院助教. 主要研究方向为数字图像处理. E-mail: 70876@nchu.edu.cn

转载本文请联系原作者获取授权,同时请注明本文来自欧彦科学网博客。

链接地址:https://wap.sciencenet.cn/blog-3291369-1356928.html?mobile=1

收藏

分享到:

当前推荐数:0
推荐到博客首页
网友评论0 条评论
确定删除指定的回复吗?
确定删除本博文吗?