IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

视频中旋转与尺度不变的人体分割方法

已有 247 次阅读 2024-6-26 09:16 |系统分类:博客资讯

引用本文

 

薄一航, HAOJiang. 视频中旋转与尺度不变的人体分割方法. 自动化学报, 2017, 43(10): 1799-1809. doi: 10.16383/j.aas.2017.c150841

BO Yi-Hang, HAO Jiang. A Rotation-and Scale-invariant Human Parts Segmentation in Videos. ACTA AUTOMATICA SINICA, 2017, 43(10): 1799-1809. doi: 10.16383/j.aas.2017.c150841

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2017.c150841

 

关键词

 

视频分割,旋转不变,尺度不变,动态规划 

 

摘要

 

提出了一种旋转与尺度不变的人身体部位所在区域的视频分割方法.方法中不仅考虑到躯干与四肢之间的关系,还考虑到四肢之间的相互关系,通过空间与时间的连续性约束对每帧中各个可能的身体部位进行优化组合,并巧妙地用动态规划对非线性图模型进行优化,且不受运动目标尺度变化与各种翻转运动的影响.该方法首先用动态规划的优化方法得到每一帧中最优的N个身体部位组合,将每一个组合作为图模型中的一个节点,并用动态规划对所有帧中的各个组合所构成的网格状图结构进行优化,最终得到每一帧中最优的身体部位组合.实验结果表明,该视频分割方法不仅适用于行人视频,还适用于具有各种姿势的运动视频,且具有较好的鲁棒性.

 

文章导读

 

视频分割问题是当前计算机视觉领域一个比较热门的话题.与静态图像分割方法不同的是视频分割不仅要考虑到单视频帧内各个像素点或超像素块之间的关系, 还要保证相邻视频帧之间对应像素点或超像素块的连续性与光滑性.视频分割的结果可以为更高一级的视频及视频中目标的分析工作提供较好的分析基础.

 

起初, 针对静止摄像机拍摄的视频, 即视频背景为静止不变的情况, 可以通过简单的去背景的方法得到整个运动的前景区域[1-4].从目前的视频分割方法来看, 包括基于像素点的分割、基于超像素块的分割和基于提议(Proposals)的分割等.但是, 对于视频分割而言, 考虑到运算量和运算速度的问题, 基于像素点的分割方法很不现实, 也很少被采用.当前比较流行的视频分割方法以基于超像素块的分割和基于提议的分割为主.首先, 对基于超像素块的分割而言, 研究者们试图通过区域块跟踪的方法来处理[5-8]得到不同的分割区域.鉴于视频数据本身的特殊性, 还有一些视频分割方法将视频分割成底层特征随时间变化连续的超像素块[7-10].然而, 超像素块本身往往不具备完整的语义信息, 每个超像素块可能是一个完整的目标, 也可能是构成某个目标的一部分, 这样的分割结果并不利于进一步的目标分析工作.并且, 分割结果的优劣很大程度上还依赖于所选择的分割阈值, 我们通常很难选择一个合适的阈值使得每一个分割区域都是一个完整且有意义的目标或目标的组成部分.另外, 对于比较长的视频而言, 在整个视频分割的过程中, 会出现前后帧相对应的分割区域错位的情况.近几年, 还有研究者提出针对视频中运动目标的分割方法[11-12], 比如文献[13]中用一种全自动的方法, 通过将Grab-Cut方法[14]扩展到时空领域来得到视频中目标的闭合轮廓.为了得到更有意义的分割结果[15-16], 基于提议(Proposals)的视频分割方法越来越受到研究者们的青睐[9, 17-20], 每一个提议都极有可能是一个有意义的目标或目标的某个组成部分.其中, 文献[21]通过SVM (Support vector machine)分类器提取出每个视频帧中较优的一些提议, 再通过求解一个全连接的条件随机场的最大后验对前景和背景进行分类, 得到的前景区域往往是一个完整的、有意义的目标所在的区域.文献[22]利用特征空间优化的方法将视频进行语义分割, 得到视频中各个语义目标所在的区域.文献[23]借助目标检测以及目标跟踪的结果对视频中的目标进行分割.

 

然而, 这些视频分割方法得到的是整个前景目标所在的区域[24-25], 未能细化到构成目标的每一个组成部分.如果要进一步对运动目标的姿势等进行识别与分析, 仅仅得到整个目标所在的区域是远远不够的, 因此, 与上述方法不同, 本文所提出的视频分割方法可以具体到构成运动目标的每个主要部位.

 

在各类运动目标中, 人是最普遍, 也是最复杂的一种.与其他刚性物体不同, 由于人姿势变化的不确定性和无规律性, 其旋转、尺度以及外貌的变化都会给分割过程带来很大的困难.目前, 已有不少关于人身体各部位的跟踪与检测方法, 将人的身体分成若干个运动部位, 如图 1(a)所示, 不同的部位由不同灰度的矩形框来标定, 而非具体的身体部位所在的区域.此类方法通常是基于模板的匹配, 根据人姿势、尺度的变化, 分别与各个角度和尺度的模板进行匹配, 从而得到与测试图像最为接近的一个模板作为匹配结果, 称这种方法为"图案结构(Pictorial structure)"[26-27].该方法的模型为树形结构, 只考虑到四肢与躯干之间的关系, 而没有对四肢之间的关系加以约束, 往往会引起某一只胳膊或者某一只腿的漏检或错检.另外, 该方法虽然已被广泛地应用到人的跟踪与姿势的估计中, 但是, 由于人运动姿势变化的随机性和不可预知性, 无法事先知道目标尺度和旋转角度的变化范围, 逐一模板匹配的过程会很大程度地影响运算速度.

 1  “图案结构检测结果与本方法分割结果图

 

针对以上问题, 本文提出一种旋转与尺度不变的运动视频中人身体部位所在区域的分割方法, 如图 1(b)所示为单帧的分割标注结果.该方法不仅考虑到躯干与四肢之间的关系, 同时还考虑到四肢之间的相互关系.其最大的优势就在于, 它不需要考虑不同尺度与旋转角度的模板匹配, 而是利用人体各个部位的相对面积及比例关系, 构建一个旋转与尺度不变的视频分割方法.实验结果表明, 该方法比"图案结构"方法的鲁棒性更强, 尤其是对于目标旋转和尺度变化较大的视频, 并与现有的"图案结构"方法进行了定性和定量的比较.这样的分割结果无论是在体育赛场、舞蹈演出, 还是在视频监控系统中都具有重要的应用潜质.

 

本文最大的贡献就是提出了一种新的旋转与尺度不变的人身体各部位所在区域的视频分割方法.如图 2所示为整个方法的鸟瞰图, 首先, 找到每一帧(Frame 1, Frame 2, ⋯, Frame n)中可能的身体部位所在的区域块; 然后, 根据每帧内各个身体部位间的相对位置、大小、对称性等约束找到每一帧中可能的身体部位组合; 最后, 利用相邻帧之间运动的连续性、光滑性等约束条件, 采用动态规划的方法找到每一帧中最优的人身体部位的组合.该方法不仅适用于行人视频, 同样也适用于复杂的运动视频.

 2  旋转与尺度不变的视频分割方法鸟瞰图

 3  单帧内与相邻帧之间身体部位关系图

 

本文提出了一种新的人身体部位所在区域的视频分割方法.该方法不需要任何初始化, 对于各种旋转与尺度的变化都具有较好的鲁棒性.实验中分别对该方法进行了定性和定量的分析比较, 实验结果表明, 与类似的方法相比, 该方法不仅适用于直立行走的行人, 对各种姿势的人也可以得到较好的实验结果.另外, 还试将行人视频的分割结果应用到行人行走姿势的估计中, 为进一步行人异常行为的分析奠定了良好的基础.当然, 针对实验中出现的不足, 比如如何提高提议(Proposals)的准确率等问题, 也是接下来的工作中需要解决的.另外, 在接下来的工作中, 会在该工作的基础上继续进行体育、舞蹈等运动视频中目标姿势的估计与分析, 以及其在智能视频监控与人机交互领域的应用.

 

作者简介

 

HAOJiang

HAO Jiang 波士顿学院计算机科学系副教授.主要研究方向为图像匹配, 目标检测, 目标跟踪, 姿势和行为估计.E-mail:hjiang@cs.bc.edu

 

薄一航 

北京电影学院美术学院讲师.2011年博士毕业于北京交通大学, 2011~2014年分别在中国科学院自动化所与波士顿学院从事博士后研究工作.主要研究方向为图像与视频分割, 人的行为和姿势估计, 目标跟踪, 交互设计.本文通信作者.E-mail:boyihang@sina.com



https://wap.sciencenet.cn/blog-3291369-1439746.html

上一篇:基于自适应背景模板与空间先验的显著性物体检测方法
下一篇:RGB-D图像的贝叶斯显著性检测
收藏 IP: 150.242.79.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-29 23:19

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部