引用本文
冯诚, 张聪炫, 陈震, 李兵, 黎明. 基于光流与多尺度上下文的图像序列运动遮挡检测. 自动化学报, 2024, 50(9): 1854−1865 doi: 10.16383/j.aas.c210324
Feng Cheng, Zhang Cong-Xuan, Chen Zhen, Li Bing, Li Ming. Occlusion detection based on optical flow and multiscale context. Acta Automatica Sinica, 2024, 50(9): 1854−1865 doi: 10.16383/j.aas.c210324
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c210324
关键词
图像序列,遮挡检测,深度学习,多尺度上下文,非刚性运动
摘要
针对非刚性运动和大位移场景下运动遮挡检测的准确性与鲁棒性问题, 提出一种基于光流与多尺度上下文的图像序列运动遮挡检测方法. 首先, 设计基于扩张卷积的多尺度上下文信息聚合网络, 通过图像序列多尺度上下文信息获取更大范围的图像特征; 然后, 采用特征金字塔构建基于多尺度上下文与光流的端到端运动遮挡检测网络模型, 利用光流优化非刚性运动和大位移区域的运动检测遮挡信息; 最后, 构造基于运动边缘的网络模型训练损失函数, 获取准确的运动遮挡边界. 分别采用MPI-Sintel和KITTI测试数据集对所提方法与现有的代表性方法进行实验对比与分析. 实验结果表明, 所提方法能够有效提高运动遮挡检测的准确性和鲁棒性, 尤其在非刚性运动和大位移等困难场景下具有更好的遮挡检测鲁棒性.
文章导读
运动遮挡是由图像序列中物体和场景相互运动引起的像素点遮挡现象. 通过定位遮挡像素点提取运动遮挡区域是图像处理、计算机视觉等领域的热点问题, 研究成果广泛应用于动作识别[1]、人体姿态识别[2]、光流估计[3]、人脸识别[4]、目标跟踪[5]和三维重建[6-7]等更高级视觉任务.
在过去的十多年中, 已有许多致力于研究光流估计和基于光流的运动遮挡检测工作[8-11]. 在传统方法中, 运动遮挡区域被定义为违反亮度守恒假设或前后一致性假设的异常区域. 传统的运动遮挡检测方法通常是利用光流前后一致性假设构建运动遮挡检测模型, 首先需要计算前后连续两帧图像的光流, 然后通过前后向光流的一致性检测提取运动遮挡区域[12-15]. 然而, 基于光流一致性假设的运动遮挡检测方法存在较大的局限性: 一方面, 一致性阈值需要人工设定, 使得该类方法的运动遮挡结果难以适用于不同场景; 另一方面, 该类方法需要前后向光流信息, 增加了运动遮挡检测的时间消耗, 导致模型的实时性较低.
针对基于光流一致性假设的运动遮挡检测方法精度低和实时性差的问题, 一些工作提出采用局部分层模型[16-17]来检测运动遮挡区域. 基于局部分层模型的运动遮挡检测方法通常利用连续两帧的前向光流以及参考帧作为输入, 采用分割算法将参考帧图像与光流分割为细密的局部区域, 建立概率模型对这些局部区域进行是否存在运动遮挡的判断. 基于局部分层模型的运动遮挡检测方法只需要计算一次光流, 使得其实时性更优. 同时通过引入参考帧分割图作为额外信息对运动遮挡检测进行引导, 使得该类方法的运动遮挡检测准确性也更高.
考虑到运动遮挡的本质是由物体运动引起的场景中物体相互遮挡的现象, 运动往往是发生在三维空间中的, 图像所呈现的是三维空间的投影, 图像天然缺失场景的深度信息, 因此从二维图像中检测三维运动所引起的运动遮挡较为困难. 为更好地对运动遮挡进行准确的检测, 一部分研究提出利用场景流方法[18-19]重建三维运动, 在三维空间中进行运动遮挡检测. 基于场景流的运动遮挡检测方法通常将前后帧三维点云作为输入, 通过对局部点云进行运动建模, 采用几何以及亮度信息进行约束, 最终将违反几何一致性和亮度守恒假设的区域定义为运动遮挡区域. 由于场景流相对于光流具有更多的空间运动信息, 因此基于场景流的运动遮挡检测方法在三维空间进行运动遮挡检测, 再将其投影回二维平面. 与基于分层模型的运动遮挡检测方法相比, 基于场景流的运动遮挡检测方法通过建模图像的局部深度关系获取遮挡信息, 能实现更准确的运动遮挡检测. 由于目前大多数高精度场景流方法需要点云作为输入, 而点云信息需要RGB-D摄像头或者激光雷达进行采集, 这对硬件要求较高. 另外, RGB-D摄像头与激光雷达具有局限性, 例如, RGB-D摄像头无法采集较远处的深度信息, 激光雷达则需要与RGB摄像头进行配准, 这些软硬件上的缺点限制了基于场景流的运动遮挡检测方法的大范围推广应用.
为建立一种更为普适的运动遮挡检测方法, 一些研究提出可以通过对参考帧图像建立规则化网格化分层模型来实现运动遮挡检测. 相比于分层模型, 通过基于规则化网格[20-22]对参考帧进行划分可以获得更精细的局部分割细节. 该类方法对网格顶点的亮度变化进行对比, 并采用阈值判断策略确定运动遮挡区域. 因此基于规则化网格的运动遮挡检测方法不仅具有更好的通用性, 也具有更高的精度. 但是精细化网格划分计算量较大, 消耗的时间更长, 无法在实时性和运动遮挡检测精度之间取得平衡.
依靠先验假设和判断策略的传统遮挡检测方法在计算速度和精度上都无法达到令人满意的水平, 随着计算机硬件性能的提升和卷积神经网络在计算机视觉领域的大规模应用, 基于深度学习的运动遮挡检测模型成为研究热点. Yu等[23]率先提出一种基于亮度守恒和运动平滑假设的无监督遮挡检测方法, 该方法首先将卷积神经网络和光流一致性检测结合起来, 通过卷积神经网络计算光流, 大大减少了完成一次运动遮挡检测所需要的时间. 该方法虽然结合了卷积神经网络, 但其运动遮挡检测方法仍然是建立在传统方法中光流前后向一致性假设的基础上. 考虑到遮挡是运动的结果, 运动遮挡可以反哺光流的计算, Unflow[24]方法首次建立了光流−遮挡联合估计方法, 该方法使用无监督光流模型计算前向光流和后向光流, 采取传统前后一致性检测方法进行运动遮挡检测, 并在损失函数中同时对光流与遮挡检测进行约束, 实现了一个无监督的快速的光流−运动遮挡联合估计模型. 相比于Yu等[23]的方法, Unflow方法将运动遮挡结合到光流估计方法中并通过损失函数加以约束, 实现了更准确的运动遮挡检测. Back2Future[25]方法实现了一个无监督全卷积光流−遮挡联合估计模型, 该模型中的运动遮挡检测部分不再依靠传统的前后向光流一致性假设, 而是采用卷积神经网络独立检测运动遮挡. 与Unflow方法相似, 该方法通过损失函数同时对光流和运动遮挡进行约束, 获得运动遮挡区域信息.
为弥补卷积神经网络训练样本较少的问题, IRR-PWC[26]方法提出具有运动遮挡真实值的合成数据集FlyingChairsOCC, 引入运动遮挡真实值对模型进行监督学习, 并利用卷积神经网络模型提取运动遮挡特征估计运动遮挡. 相比于传统方法和基于卷积神经网络的无监督方法, IRR-PWC方法显著提升了运动遮挡检测的精度. 在最新的研究中, MaskFlownet[27]方法提出一种非对称特征匹配模块, 无需额外数据即可让模型学习到检测运动遮挡, 但是相比有监督方法, 精度仍显不足.
尽管现有的基于卷积神经网络的运动遮挡检测方法在刚性运动场景下已经取得了较好的效果, 但当图像序列中包含非刚性运动和大位移等困难运动场景时, 运动遮挡检测的准确性和鲁棒性仍有待提升. 针对运动遮挡检测的准确性和鲁棒性问题, 本文提出基于光流和多尺度上下文的运动遮挡检测模型. 首先设计多尺度上下文信息聚合网络; 然后采用特征金字塔将运动遮挡检测模型与光流估计模型相结合, 构建端到端的运动遮挡检测模型, 通过聚合多尺度上下文信息, 提升非刚性运动和大位移场景的遮挡检测准确性与鲁棒性; 最后, 使用本文提出的边缘损失函数训练模型, 进一步提升物体和运动边界区域的运动遮挡检测精度. 实验结果表明, 相比于传统方法、无监督方法和基于上下文的IRR-PWC方法, 本文方法能够有效提高运动遮挡检测的精度, 尤其针对非刚性运动和大位移等困难运动场景具有更好的鲁棒性.
图 1 上下文网络结构示意图
图 2 常见的感受野扩张网络结构示意图
图 3 多尺度上下文信息聚合网络结构示意图
本文提出一种基于多尺度上下文与光流相结合的运动遮挡检测模型, 通过将多尺度上下文模型和原上下文模型结合组成运动遮挡检测模型, 并通过与光流估计模型相结合能有效提升非刚性运动和大位移场景下运动遮挡检测的精度与鲁棒性. 为保证遮挡检测网络模型的训练准确性, 本文设计了一种新的边缘损失函数, 并将边缘损失函数与端点误差损失函数以及二分类交叉熵损失函数相结合组成多尺度损失函数, 使网络同时对光流和运动遮挡进行监督学习, 提高了物体和运动边界区域的运动遮挡检测的鲁棒性. 分别采用MPI-Sintel和KITTI数据集测试图像集对本文方法和Unflow、Back2Future、MaskFlownet以及IRR-PWC等不同类型运动遮挡检测方法进行了综合实验对比. 实验结果表明, 本文方法具有较高的运动遮挡检测精度和鲁棒性, 尤其在包含非刚性运动和大位移等复杂运动场景具有更显著的优势. 最后, 通过消融实验验证了各模块的有效性, 实验结果表明, 本文所提出的多尺度上下文信息聚合模块和结合边缘损失的多尺度损失函数能有效提升模型对运动遮挡检测的精度.
作者简介
冯诚
南昌航空大学测试与光电工程学院硕士研究生. 主要研究方向为计算机视觉. E-mail: fengcheng00016@163.com
张聪炫
南昌航空大学测试与光电工程学院教授. 2014年获得南京航空航天大学博士学位. 主要研究方向为图像处理与计算机视觉. 本文通信作者. E-mail: zcxdsg@163.com
陈震
南昌航空大学测试与光电工程学院教授. 2003年获得西北工业大学博士学位. 主要研究方向为图像处理与计算机视觉. E-mail: dr_chenzhen@163.com
李兵
中国科学院自动化研究所模式识别国家重点实验室研究员. 2009年获得北京交通大学博士学位. 主要研究方向为视频内容理解, 多媒体内容安全. E-mail: bli@nlpr.ia.ac.cn
黎明
南昌航空大学信息工程学院教授. 1997年获得南京航空航天大学博士学位. 主要研究方向为图像处理, 人工智能. E-mail: liming@nchu.edu.com
转载本文请联系原作者获取授权,同时请注明本文来自欧彦科学网博客。
链接地址:https://wap.sciencenet.cn/blog-3291369-1457374.html?mobile=1
收藏