IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

行人再识别技术综述

已有 981 次阅读 2023-10-22 16:47 |系统分类:博客资讯

引用本文

 

李幼蛟, 卓力, 张菁, 李嘉锋, 张辉. 行人再识别技术综述. 自动化学报, 2018, 44(9): 1554-1568. doi: 10.16383/j.aas.2018.c170505

LI You-Jiao, ZHUO Li, ZHANG Jing, LI Jia-Feng, ZHANG Hui. A Survey of Person Re-identification. ACTA AUTOMATICA SINICA, 2018, 44(9): 1554-1568. doi: 10.16383/j.aas.2018.c170505

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.c170505

 

关键词

 

行人再识别,人工设计特征,深度学习,特征表达,相似性度量 

 

摘要

 

行人再识别指的是判断不同摄像头下出现的行人是否属于同一行人, 可以看作是图像检索的子问题, 可以广泛应用于智能视频监控、安保、刑侦等领域.由于行人图像的分辨率变化大、拍摄角度不统一、光照条件差、环境变化大、行人姿态不断变化等原因, 使得行人再识别成为目前计算机视觉领域一个既具有研究价值又极具挑战性的研究热点和难点问题.早期的行人再识别方法大多基于人工设计特征, 在小规模数据集上开展研究.近年来, 大规模行人再识别数据集不断推出, 以及深度学习技术的迅猛发展, 为行人再识别技术的发展带来了新的契机.本文对行人再识别的发展历史、研究现状以及典型方法进行梳理和总结.首先阐述了行人再识别的基本研究框架, 然后分别针对行人再识别的两个关键技术(特征表达和相似性度量), 进行了归纳总结, 重点介绍了目前发展迅猛的深度学习技术在行人再识别中的应用.另外, 本文对行人再识别中代表性的数据集以及在各个数据集上可以取得优异性能的方法进行了分析和比较.最后对行人再识别技术的未来发展趋势进行了展望.

 

文章导读

 

行人再识别(Person re-identification, Re-ID)起源于多摄像头跟踪, 用于判断非重叠视域中拍摄到的不同图像中的行人是否属于同一个人.行人再识别涉及计算机视觉、机器学习、模式识别等多个学科领域, 可以广泛应用于智能视频监控、安保、刑侦等领域.近年来, 行人再识别技术引起了学术界和工业界的广泛关注, 已经成为计算机视觉领域的一个研究热点.由于行人兼具刚性和柔性物体的特性, 外观易受穿着、姿态和视角变化以及光照、遮挡、环境等各种复杂因素的影响, 这使得行人再识别面临着巨大的技术挑战.

 

对再识别的研究可以追溯到2003, Porikli[1]利用相关系数矩阵建立相机对之间的非参数模型, 获取目标在不同相机间的颜色分布变化, 实现了跨视域的目标匹配. 2006, Gheissari[2]首次提出行人再识别的概念, 利用颜色和显著边缘线直方图(Salient edge histograms)实现行人再识别.经过多年的研究, 行人再识别取得了诸多有意义的成果. 2010, Farenzena[3]第一次在计算机视觉领域的顶级会议CVPR (Computer vision and pattern recognition)上发表了关于行人再识别的文章Person re-identification by symmetry-driven accumulation of local features.自此以后, 在计算机视觉领域的国际重要会议, CVPR, ICCV (International conference on computer vision), BMVC (British machine vision conference), ECCV (European conference on computer vision), ICIP (International conference on image processing)和权威期刊, TPAMI (Transactions on Pattern Analysis and Machine Intelligence), IJCV (International Journal of Computer Vision), Pattern Recognition, 行人再识别都成为一个重要的研究方向, 涌现了大量的研究成果.尤其是近年来, 很多学者和研究机构陆续公布了专门针对行人再识别问题的数据集, 极大地推动了行人再识别研究工作的开展.

 

行人再识别的典型流程如图 1所示.对于摄像头AB采集的图像/视频, 首先进行行人检测, 得到行人图像.为了消除行人检测效果对再识别结果的影响, 大部分行人再识别算法使用已经裁剪好的行人图像作为输入.然后, 针对输入图像中提取稳定、鲁棒的特征, 获得能够描述和区分不同行人的特征表达向量.最后根据特征表达向量进行相似性度量, 按照相似性大小对图像进行排序, 相似度最高的图像将作为最终的识别结果.

 1  行人再识别典型流程图

 

行人再识别包括两个核心部分: 1)特征提取与表达.从行人外观出发, 提取鲁棒性强且具有较强区分性的特征表示向量, 有效表达行人图像的特性; 2)相似性度量.通过特征向量之间的相似度比对, 判断行人的相似性.可以看出, 行人再识别与图像检索的思路相同, 可以看作是图像检索的子问题.

 

根据行人再识别采用的数据源, 可分为基于图像的行人再识别和基于视频的行人再识别.后者得益于视频中包含更为丰富的时间信息, 可以获得更优的性能.

 

根据采用的特征提取与表达方法, 行人再识别技术的发展可以分为两个阶段: 1) 2012年之前的人工设计特征阶段; 2) 2012年之后的深度特征阶段.随着深度学习研究的不断深入, 各种基于深度学习的行人再识别方法被不断推出, 并取得了远超过传统方法的性能[4].

 

本文对基于人工设计特征和基于深度学习的行人再识别技术的研究进展情况进行综述.1节介绍基于人工设计特征的行人再识别方法研究进展, 重点阐述特征提取与表达、相似性度量的常用方法.2节介绍基于深度学习的行人再识别方法研究进展, 将其分为端到端式、混合式和独立式分别加以介绍.3节介绍具有代表性的行人再识别数据集, 并对各个数据集上取得优异性能的方法进行详细分析和比较.4节对行人再识别技术的未来发展趋势进行展望.

 2  行人图像块分割方法

 3  行人显著区域示意图

 

行人再识别是当今计算机视觉领域的核心难点问题, 其解决具有重要的理论意义和良好的应用前景.总的来说, 目前对于行人再识别尚处于研究探索阶段.由于人体结构和外部环境的复杂性, 基于人工特征的方法在性能上还无法令人满意.随着数据规模的不断扩大, 基于深度学习的方法展现出巨大的优势, 取得了不错的效果[69].虽然识别准确率在不断提高, 但是距离实用还存在一定的差距.将来的研究工作可以从以下几方面展开:

1) 长时行人再识别.目前大多数行人再识别算法假设行人图像或视频是在较短时间间隔内拍摄得到的, 不存在换装问题.而在实际情况中, 不同行人图像之间拍摄时间间隔越大, 目标更换服装和随身物品的可能性就越大, 识别难度也随之加大.因此, 长时行人再识别将是一个值得深入研究的问题.

2) 结合多模态生物线索的行人再识别.生物线索包括人脸、步态、整体外观等信息, 具有良好的区分能力.受限于环境条件, 目前的行人再识别方法过于依赖行人的整体外观信息, 而使用单一的生物线索很难达到理想的识别效果.因此, 结合多模态生物线索将大大促进行人再识别.

3) 密集场景与低分辨率环境下的行人再识别.在现实的复杂监控环境下, 行人检测框内往往包含两个甚至更多的行人, 这种样本会导致身份匹配上的混乱.另外, 受到拍摄距离、设备分辨率等因素的影响, 部分行人图像的分辨率较低, 导致行人再识别的难度增加.如何克服复杂环境因素的干扰仍需进一步探索.

4) 设计鲁棒的语义级行人特征表达.目前的行人再识别性能还远无法令人满意, 其根本原因是行人特征的表达能力不足.因此, 构建有效的图像特征空间与高层语义空间之间的映射关系, 实现对行人图像的语义级描述, 将大大提升行人特征的区分性和描述性, 在这方面还有很大的研究空间.

5) 基于深度属性的行人再识别.基于深度学习的特征表达具有强大的数据描述能力, 并且在识别精度和泛化能力上都比传统方法更胜一筹.在深度网络的训练过程中加入属性信息的指导, 加强神经元对于不同属性的选择性, 将有助于提高深度网络对于高层语义信息的表达能力.目前的研究难点在于如何选择最具代表性的、具有较好语义表达能力的属性, 各个属性的组合规律也尚未定论.另外, 属性的标注需要大量的人工成本, 导致现有数据集属性丰富性比较欠缺.因此, 开展基于深度属性的行人再识别将极有可能产生突破性的成果, 并最终促进该领域的发展.

 

作者简介

 

李幼蛟

北京工业大学信息学部博士研究生.山东理工大学讲师.主要研究方向为计算机视觉, 深度学习.E-mail:liyoujiao@emails.bjut.edu.cn

 

张菁 

北京工业大学教授.2008年获得北京工业大学博士学位.美国德州大学圣安东尼奥分校计算机科学系访问学者.主要研究方向为图像处理, 图像识别, 图像检索.E-mail:zhj@bjut.edu.cn

 

李嘉锋 

北京工业大学信号与信息处理实验室讲师.2009年获得中国农业大学信息与电气工程学院学士学位, 2012年和2016年获得北京航空航天大学模式识别与智能系统专业硕士学位与博士学位.2014~2015年美国匹兹堡大学访问学者.主要研究方向为计算机视觉/图像增强, 图像复原.E-mail:lijiafeng@bjut.edu.cn

 

张辉 

北京工业大学信息学部讲师.2010年获得北京理工大学信号与信息处理专业博士学位.主要研究方向为计算机视觉, 机器学习在多媒体内容分析, 视觉追踪, 目标检测中的应用.E-mail:huizhang@bjut.edu.cn

 

卓力 

北京工业大学教授.1992年获得电子科技大学无线电技术系工学学士学位, 1998年和2004年分别获得东南大学信号与信息处理专业硕士学位和北京工业大学模式识别与智能系统专业博士学位.主要研究方向为图像/视频编码和传输, 多媒体内容分析, 多媒体信息安全.本文通信作者.E-mail:zhuoli@bjut.edu.cn



https://wap.sciencenet.cn/blog-3291369-1406815.html

上一篇:基于深度学习和模糊C均值的心电信号分类方法
下一篇:基于虚拟样本生成技术的多组分机械信号建模
收藏 IP: 117.114.9.*| 热度|

1 张学文

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-7-17 04:50

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部