IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

基于全卷积神经网络与低秩稀疏分解的显著性检测

已有 1080 次阅读 2023-7-18 16:52 |系统分类:博客资讯

引用本文

 

张芳, 王萌, 肖志涛, 吴骏, 耿磊, 童军, 王雯. 基于全卷积神经网络与低秩稀疏分解的显著性检测. 自动化学报, 2019, 45(11): 2148-2158. doi: 10.16383/j.aas.2018.c170535

ZHANG Fang, WANG Meng, XIAO Zhi-Tao, WU Jun, GENG Lei, TONG Jun, WANG Wen. Saliency Detection via Full Convolution Neural Network and Low Rank Sparse Decomposition. ACTA AUTOMATICA SINICA, 2019, 45(11): 2148-2158. doi: 10.16383/j.aas.2018.c170535

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.c170535

 

关键词

 

显著性检测,全卷积神经网络,低秩稀疏分解,高层语义先验知识 

 

摘要

 

为了准确检测复杂背景下的显著区域,提出一种全卷积神经网络与低秩稀疏分解相结合的显著性检测方法,将图像分解为代表背景的低秩矩阵和对应显著区域的稀疏噪声,结合利用全卷积神经网络学习得到的高层语义先验知识,检测图像中的显著区域.首先,对原图像进行超像素聚类,并提取每个超像素的颜色、纹理和边缘特征,据此构成特征矩阵;然后,在MSRA数据库中,基于梯度下降法学习得到特征变换矩阵,利用全卷积神经网络学习得到高层语义先验知识;接着,利用特征变换矩阵和高层语义先验知识矩阵对特征矩阵进行变换;最后,利用鲁棒主成分分析算法对变换后的矩阵进行低秩稀疏分解,并根据分解得到的稀疏噪声计算显著图.在公开数据集上进行实验验证,并与当前流行的方法进行对比,实验结果表明,本文方法能够准确地检测感兴趣区域,是一种有效的自然图像目标检测与分割的预处理方法.

 

文章导读

 

随着信息科技的快速发展与推广, 图像数据成为人类重要的信息来源之一, 人们接收的信息量呈指数级增长.如何在海量的图像信息中筛选出人类感兴趣的目标区域具有重要研究意义.研究发现, 在复杂场景下, 人类视觉处理系统会将视觉注意力集中于该场景的少数几个对象, 也称为感兴趣区域.感兴趣区域与人类视觉感知关系较为密切, 具有一定的主观性.显著性检测作为图像预处理过程, 可以广泛应用到视觉跟踪[1]、图像分类[2]、图像分割[3]和目标重定位[4-5]等视觉工作领域.

 

显著性检测方法分为自上而下和自下而上两种.自上而下的检测方法[6-8]是任务驱动型, 需要人工标注真值图进行监督训练, 融入更多的人类感知(例如中心先验信息、色彩先验信息和语义先验信息等)得到显著图.而自下而上的方法[9-17]是数据驱动型, 更注重利用对比度、位置和纹理等图像特征得到显著图.最早的研究者Itti[9]提出一种基于局部对比度的空间域视觉模型, 使用由中心向四周变化的图像差异性得到显著图. Hou[10]提出了基于谱残差(Spectral residual, SR)的显著性检测算法. Achanta[11]提出基于图像频域计算显著度的频率调谐(Frequency-tuned, FT)算法. Cheng[12]提出了基于直方图计算全局对比度的方法. Perazzi[13]引进了一种将显著性检测看作滤波的思想, 提出了显著性过滤器(Saliency filters, SF)方法. Goferman[14]提出了基于上下文感知(Context-aware, CA)的显著性检测算法. Yang[15]先后提出基于图形正则化(Graph-regularized, GR)的显著性检测算法和利用显著性传播的流行排序(Manifold ranking, MR)算法[16]. Qin[17]提出基于背景先验和单层元胞自动机(Background-based method via single-layer cellular automata, BSCA)的显著性检测算法.此外, 低秩矩阵恢复作为高维数据分析及处理的工具应用到显著性检测中[18-20]. Yan[18]提出将图像显著区域看作是稀疏噪声, 将背景看作是低秩矩阵, 利用稀疏表示和鲁棒主成分分析算法计算图像的显著性.该算法首先将图像分解成$8\times8$的小块, 对每个图像块进行稀疏编码并合并成一个编码矩阵; 然后利用鲁棒主成分分析分解编码矩阵; 最后利用分解得到的稀疏矩阵构建相应图像块的显著性因子.但是, 由于大尺寸的显著目标包含很多图像块, 每个图像块中的显著目标不再满足稀疏特性, 因而极大地影响了检测效果. Lang[19]提出多任务低秩恢复的显著性检测算法, 利用多任务低秩表示算法分解特征矩阵, 并约束同一图像块中所有特征稀疏成分的一致性, 然后采用重构误差构建相应图像块的显著性.该算法充分利用多特征描述的一致性信息, 效果比文献[18]有所提升, 但由于大尺寸的目标包含大量的特征描述, 此时特征不再具有稀疏特性, 仅利用重构误差不能解决这一问题, 故该方法同样不能完整地检测出大尺寸的显著性目标.为了改善低秩矩阵恢复的结果, Shen[20]提出一种融合高层次和低层次信息的低秩矩阵恢复检测算法(Low rank matrix recovery, LRMR), 这是一种自下而上与自上而下结合的算法.改进了文献[18]中的不足, 首先将图像进行超像素分割, 并提取超像素的多个特征; 然后通过学习得到特征变换矩阵和先验知识, 包括中心先验、人脸先验和色彩先验, 再利用学习得到的特征变换矩阵和先验知识对特征矩阵进行变换; 最后利用鲁棒主成分分析算法对变换后的矩阵进行低秩与稀疏分解.该方法在一定程度上改善了文献[18-19]的不足, 但是由于中心先验存在一定的局限性, 而在复杂场景下色彩先验也会失效, 因此该算法对背景较复杂的图像检测效果不理想.

 

随着深度学习研究的不断深入, 卷积神经网络逐渐应用到显著性检测中.李岳云等[21]提出了一种基于深度卷积神经网络的显著性检测方法, 首先利用超像素算法和双边滤波分别得到区域和边缘信息, 再利用深度卷积神经网络学习图像的区域和边缘特征, 最后将卷积神经网络输出的区域置信图和边缘置信图融入到条件随机场中, 达到判断显著性的目的. Wang[22]提出了一种基于循环全卷积神经网络(Recurrent fully convolutional neural networks, RFCNN)的显著性检测方法, 主要包括预训练和微调两个步骤, 利用RFCN对原图和显著先验图进行训练达到对显著先验图修正的目的, 然后利用传统算法对修正后的显著图进行进一步优化处理. Lee[23]提出了在一个统一的深度学习框架中利用高层次和低层次特征进行显著性检测的深度显著(Deep saliency, DS)算法, 使用VGG-net提取高级特征, 利用低层次特征与图像中其他部分进行对比得到低层次距离图, 然后使用卷积神经网络对距离图进行编码, 最后将编码的低层次距离图和高级特征连接起来, 采用一个全连接的神经网络分类器对特征进行评估, 得到显著图.以上方法显示了深度学习在显著性检测中的优良性能.

 

如前文所述, 文献[20]中的中心先验存在一定的局限性, 而在复杂场景下色彩先验也会失效, 二者均为不稳定的先验知识.为了提高方法在复杂场景下进行显著性检测的性能, 本文对文献[20]进行改进, 利用基于全卷积神经网络(Fully convolutional neural networks, FCNN)学习得到的高层语义先验知识替换文献[20]中的中心先验、人脸先验和色彩先验知识, 并将其融入到低秩稀疏分解中. FCNN通常用于语义分割[24], 即对图像中的各部分进行区域分割并给出语义类别.本文忽略类别因素, 仅利用FCNN定位前景目标, 由于前景目标通常是观察者感兴趣的区域, 因此FCNN分割出的前景可作为显著性检测的语义先验知识.因为FCNN对前景目标定位准确, 所以本文方法能够有效提高显著性检测的准确性.

 1  本文方法的总体框架

 2  部分中间过程结果图

 3  FCNN的网络结构

 

本文提出一种基于全卷积神经网络与低秩稀疏分解的显著性检测方法.首先, 对原图像进行超像素聚类, 并提取每个超像素的颜色、纹理和边缘特征, 据此构成图像的特征矩阵; 然后, 利用MSRA数据库基于梯度下降法学习得到特征变换矩阵; 接着, 再次利用MSRA数据库对全卷积神经网络进行微调, 学习得到高层语义先验知识矩阵; 最后, 利用特征变换矩阵和高层语义先验知识矩阵对特征矩阵进行变换, 再利用鲁棒主成分分析算法对变换后的矩阵进行低秩稀疏分解, 得到最终的显著图.在公开的MSRA-test1000PASCAL-S数据集上进行实验验证, 在准确率-召回率曲线、F-measureMAE指标上优于当前流行算法.

 

作者简介

 

张芳

天津工业大学电子与信息工程学院副教授.2009年获得天津大学精密仪器与光电子工程学院博士学位.主要研究方向为图像处理与模式识别.E-mail:hhzhangfang@126.com

 

王萌

天津工业大学硕士研究生.2015年获得天津工业大学电子信息科学与技术专业学士学位.主要研究方向为模式识别, 机器学习.E-mail:wmccsunny@163.com

 

吴骏

天津工业大学电子与信息工程学院副教授.2007年获得天津大学电子信息工程学院博士学位.主要研究方向为图像处理与模式识别, 人工神经网络.E-mail:zhenkongwujun@163.com

 

耿磊  

天津工业大学电子与信息工程学院副教授.2012年获得天津大学精密仪器与光电子工程学院博士学位.主要研究方向为图像处理与模式识别, 智能信号处理技术与系统, DSP系统研发.E-mail:genglei@tjpu.edu.cn

 

童军  

天津工业大学电子与信息工程学院教授.2009年获中国香港城市大学博士学位.主要研究方向为信号处理与通信技术.E-mail:eejtong@163.com

 

王雯  

天津工业大学电子与信息工程学院助理实验师.2015年获得天津工业大学电子与通信工程专业硕士学位.主要研究方向为图像处理与模式识别.E-mail:wangwen@tjpu.edu.cn

 

肖志涛  

天津工业大学电子与信息工程学院教授.2003年获得天津大学电子信息工程学院博士学位.主要研究方向为智能信号处理, 图像处理与模式识别.本文通信作者.E-mail:xiaozhitao@tjpu.edu.cn



https://wap.sciencenet.cn/blog-3291369-1395817.html

上一篇:基于性能指标约束的一类输入死区非线性系统最优控制
下一篇:一种基于细节层分离的单曝光HDR图像生成算法
收藏 IP: 117.114.9.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-2 23:24

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部