博文

基于语义引导特征聚合的显著性目标检测网络

已有 783 次阅读 2023-12-6 13:15 |系统分类:博客资讯

引用本文

王正文, 宋慧慧, 樊佳庆, 刘青山. 基于语义引导特征聚合的显著性目标检测网络. 自动化学报, 2023, 49(11): 2386−2395 doi: 10.16383/j.aas.c210425

Wang Zheng-Wen, Song Hui-Hui, Fan Jia-Qing, Liu Qing-Shan. Semantic guided feature aggregation network for salient object detection. Acta Automatica Sinica, 2023, 49(11): 2386−2395 doi: 10.16383/j.aas.c210425

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c210425

关键词

显著性目标检测，混合注意力，多层次融合，深度学习

摘要

在显著性目标检测网络的设计中, U型结构使用广泛. 但是在U型结构显著性检测方法中, 普遍存在空间位置细节丢失和边缘难以细化的问题, 针对这些问题, 提出一种基于语义信息引导特征聚合的显著性目标检测网络, 通过高效的特征聚合来获得精细的显著性图. 该网络由混合注意力模块(Mixing attention module, MAM)、增大感受野模块(Enlarged receptive field module, ERFM)和多层次聚合模块(Multi-level aggregation module, MLAM)三个部分组成. 首先, 利用增大感受野模块处理特征提取网络提取出的低层特征, 使其在保留原有边缘细节的同时增大感受野, 以获得更加丰富的空间上/下文信息; 然后, 利用混合注意力模块处理特征提取网络的最后一层特征, 以增强其表征力, 并作为解码过程中的语义指导, 不断指导特征聚合; 最后, 多层次聚合模块对来自不同层次的特征进行有效聚合, 得到最终精细的显著性图. 在6个基准数据集上进行了实验, 结果验证了该方法能够有效地定位显著特征, 并且对边缘细节的细化也很有效.

文章导读

显著性目标检测[1-5]能够对图像中在视觉上最与众不同的对象或区域进行检测与识别. 目前, 显著性目标检测已经成功地作为许多计算机视觉领域任务的预处理过程, 包括目标跟踪[6]、物体识别[7]、语义分割[8]等.

传统方法[9-10]大多依靠颜色、纹理等手工特征或者启发式先验来捕获图像局部细节和全局上/下文. Goferman等[9]提出一种基于上/下文感知的方法, 对目标周围的不同区域均进行检测, 并最终基于四个心理学原理简单生成了显著性图. Yan等[10]设计了一个分层模型, 能够对显著信息进行层次分析, 并将不同层次的输出进行组合得到最终结果. 尽管上述算法取得了一定的成功, 但是由于缺乏高级语义信息的参与, 在复杂场景中检测显著物体的能力受到了很大限制.

近年来, 卷积神经网络得到快速发展. 例如文献[11-13]的卷积神经网络所具备的金字塔结构, 能够在较浅层拥有丰富的低层边缘细节特征, 而较深层则包含了更多语义信息, 更擅长定位显著物体的确切位置. 基于上述先验, 大量基于卷积神经网络的深度模型被相继提出. Hou等[11]对编码过程中每个阶段都引入了跳跃连接, 对特征图进行多层次多角度的聚合连接, 输出精确的结果. Li等[14]将粗纹理的显著图作为前景信息, 将图像边界的超像素值作为背景信息, 并将两者结合, 得到最终的结果. Qin等[15]设计了一种嵌套的U型结构, 融合了不同感受野大小的特征, 能够捕捉更多的上/下文信息. 在这些方法中, U型结构由于能够通过在基础的分类网络上建立自上而下的路径来构建丰富的特征图, 而受到了最多的关注.

尽管上述方法相对于传统方法已经取得了很大进步, 但是还有很大改进空间. 首先, 在U型结构的解码过程中, 高层语义信息逐渐传递到较浅层, 虽然较浅层获得了显著物体的语义信息, 但是位置信息同时也被稀释, 造成最终输出的预测图中并不是当前图像中最显著部分, 丢失了显著物体准确的空间定位; 其次, 低层特征拥有丰富的边界信息, 但是由于在网络的较浅层, 无法获得较大感受野, 此时如果只是简单地融合高层特征与低层特征, 是无法精确地捕捉图片中显著物体边界的, 尤其是小目标. 因此, 本文考虑在增大低层特征感受野, 提高其表征力后, 将其送入到高效的特征聚合模块中, 以此来细化显著物体的边缘.

针对上述问题, 本文研究了如何在U型结构中通过高效的特征融合解决这些问题. 本文主要贡献包括以下3个方面: 1)混合注意力模块(Mixing attention module, MAM)对来自第5个残差层的特征利用注意力机制进行显著性增强, 得到更加关注显著物体的语义特征, 同时为了解决解码过程中显著物体位置信息被不断稀释的问题, 将其作为整个解码过程中的语义指导, 不断指导解码过程中的特征聚合, 生成更加具体的显著性图. 2)增大感受野模块(Enlarged receptive field module, ERFM)可以对来自低层的特征进行处理. 低层特征的边缘细节相当丰富, 但受限于感受野, 无法获得更加全局的信息. 因此, 考虑加入ERFM, 可以在保留原有边缘细节的同时, 获得更大的感受野, 增强语义信息. 3)多层次聚合模块(Multi-level aggregation module, MLAM)是对来自经过上述2个模块生成特征进行高效聚合, 以级联方式不断提取特征中的显著部分, 细化显著物体的边缘细节, 生成最终的显著图. 具体结构如图1所示.

图 1 网络结构图

图 2 混合注意力模块

图 3 增大感受野模块

本文提出一种基于语义引导特征聚合的显著性目标检测算法, 主要包括混合注意力模块、增大感受野模块和多层次融合模块3个模块. MAM能够生成更佳的语义特征, 用来指导解码过程中的特征融合, 使得聚合的特征能够更好地定位显著物体; ERFM能够丰富低层特征所具备的上/下文信息, 并将增强后的特征输入到MLAM中; MLAM利用MAM生成的语义信息, 对当前解码的特征和ERFM输出的低层特征进行指导融合, 并最终以级联方式逐步恢复边界细节, 生成最终的显著图. 本文与目前流行的10种算法在6个基准数据集上进行了实验比较, 由可视化图6可以看出, 本文算法能够有效地保留显著物体的空间位置信息, 并且边缘也得到了很好细化. 实验结果也验证了本文算法具有领先性能.

作者简介

王正文

南京信息工程大学自动化学院硕士研究生. 主要研究方向为显著性目标检测, 深度学习. E-mail: 20191223064@nuist.edu.cn

宋慧慧

南京信息工程大学自动化学院教授. 主要研究方向为视频目标分割, 图像超分. 本文通信作者. E-mail: songhuihui@nuist.edu.cn

樊佳庆

南京信息工程大学自动化学院硕士研究生. 主要研究方向为视频目标分割. E-mail: jqfan@nuaa.edu.cn

刘青山

南京信息工程大学自动化学院教授. 主要研究方向为视频内容分析与理解. E-mail: qsliu@nuist.edu.cn

转载本文请联系原作者获取授权，同时请注明本文来自欧彦科学网博客。
链接地址：https://wap.sciencenet.cn/blog-3291369-1412700.html

上一篇：融合多策略的黄金正弦黑猩猩优化算法
下一篇：智能优化算法的量子理论纲要

收藏 IP: 117.114.9.*| 热度|

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

数据加载中...

返回顶部

欧彦

扫一扫，分享此博文

全部作者的精选博文

• 2023年度自动化领域国家自然科学基金申请与资助情况

IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

基于语义引导特征聚合的显著性目标检测网络

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

欧彦

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

基于语义引导特征聚合的显著性目标检测网络

当前推荐数：0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

欧彦

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

该博文允许注册用户评论请点击登录评论 (0 个评论)