引用本文
陈权, 陈飞, 王衍根, 程航, 王美清. 融合目标定位与异构局部交互学习的细粒度图像分类. 自动化学报, 2024, 50(11): 2219−2230 doi: 10.16383/j.aas.c230507
Chen Quan, Chen Fei, Wang Yan-Gen, Cheng Hang, Wang Mei-Qing. Fine-grained image classification by integrating object localization and heterogeneous local interactive learning. Acta Automatica Sinica, 2024, 50(11): 2219−2230 doi: 10.16383/j.aas.c230507
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c230507
关键词
深度学习,细粒度图像分类,弱监督目标定位,图神经网络,知识蒸馏
摘要
由于细粒度图像之间存在小的类间方差和大的类内差异, 现有分类算法仅仅聚焦于单张图像的显著局部特征的提取与表示学习, 忽视了多张图像之间局部的异构语义判别信息, 较难关注到区分不同类别的微小细节, 导致学习到的特征缺乏足够区分度. 本文提出了一种渐进式网络以弱监督的方式学习图像不同粒度层级的信息. 首先, 构建一个注意力累计目标定位模块(Attention accumulation object localization module, AAOLM), 在单张图像上从不同的训练轮次和特征提取阶段对注意力信息进行语义目标集成定位. 其次, 设计一个多张图像异构局部交互图模块(Heterogeneous local interactive graph module, HLIGM), 提取每张图像的显著性局部区域特征, 在类别标签引导下构建多张图像的局部区域特征之间的图网络, 聚合局部特征增强表示的判别力. 最后, 利用知识蒸馏将异构局部交互图模块产生的优化信息反馈给主干网络, 从而能够直接提取具有较强区分度的特征, 避免了在测试阶段建图的计算开销. 通过在多个数据集上进行的实验, 证明了提出方法的有效性, 能够提高细粒度分类的精度.
文章导读
细粒度图像分类是计算机视觉和模式识别领域一项长久并且极具挑战的研究课题, 在现实世界中有着广泛的应用. 不同于普通的图像分类, 细粒度图像分类旨在对粗粒度的大类别进行更加细致的子类划分, 由于不同类别的目标外观相似, 类间差异只存在于显著性即具有判别力的局部部位的细微不同, 并且同一类别不同的图像可能因为目标姿态、光照、背景等干扰有着巨大的方差, 使得细粒度的图像分类更加具有挑战性.
在研究[1]中发现, 许多方法通常从两个方面设计解决细粒度分类的问题:“更有区分度的表征学习”[2−5]和“定位目标特征显著的部分”[6−9]. 文献[10−11]学习局部显著特征并将它们直接进行拼接来提高特征的判别力, 却没有考虑到局部之间其实存在着一定的关系. 一些研究[12−13]开始对局部之间的相关信息进行学习, 但是这些研究本质上都只是在单个图像上通过类别损失监督对特征提取网络进行优化, 如图1所示(实线部分), 仅关注于特征单独的分类特性, 网络较难注意到区别于其他类别的局部的细微处, 忽略了特征空间整体的聚簇特性——相同类别的特征内聚、不同类别的特征疏离的程度. 由于细粒度数据集的特点, 数据在空间的分布往往会更加离散, 如果不考虑不同图像局部区域之间存在的语义联系, 可能会遗漏很多本该关注的信息, 导致无法学到有区分度的表示. 除此之外, 由于在图像中前景目标所处的位置和尺度大小不尽相同, 直接在原图中使用预先设计的固定大小的锚框采样目标显著的局部部件并不是一个好的选择. 如图2所示, 采样的锚框无法对不同大小的目标都很好地适配, 对于小目标的图像, 大的锚框会包含更多的背景噪声, 网络更难准确地挖掘到关键的局部部位. 同时, 在文献[14]中发现, 一些无关的背景信息会被用于识别, 这都会影响到模型整体的性能. 因此, 应该将不同图像的目标调整到相同尺度的大小再进行采样.
图 1 异构局部交互图模块说明图
图 2 原始图像和目标图像上的部件采样对比 ((a)、(b)使用固定大小的锚框直接在原图中采样有用的目标局部部件, 没有很好地区分开不同的部件并且包含了更多无关的背景信息; (c)、(d) 展示了定位到目标后放大到一定的尺度再进行部件采样的效果)
本文设计了一种弱监督学习的渐进式框架来解决细粒度分类的这些问题, 包含注意力累计目标定位模块(Attention accumulation object localization module, AAOLM)和异构局部交互图模块(Heterogeneous local interactive graph module, HLIGM). 注意力累计目标定位模块通过提取到的特征计算出对应的注意力图来定位目标, 裁剪得到细节信息更精细的目标图像, 再采样各个显著的局部部件. 然而, 由于模型随着训练会渐渐只聚焦于图像的某个局部区域, 为了定位到一个结构更加完整的目标获取到更多有用的信息, 在文献[15]中发现, 在训练的不同轮次, 模型的关注点会在语义对象的不同区域变换并且它们之间是互补的, 因此, 在训练的每个轮次会使用先前轮次生成的注意力图来更新当前计算的注意力图的各个响应值, 从而保存高响应区域, 同时, 更进一步对不同高层特征生成的注意力图进行集成. 对于提出的异构局部交互图模块, 细粒度数据集图像由于目标只存在局部的细微不同, 依靠单个图像学习到的特征较难判别, 因此, 在图中使用了来自不同图像的局部特征作为节点构建一个完整的图. 如图1所示, 在图中产生了两种不同类型的节点对构成的边, 分别为连接相同类别的局部区域构成的正样本对的正对边和连接不同类别的局部区域构成的负样本对的负对边. 为了同时学习不同类型的局部关系, 受对比学习的启发, 本文使用了一个注意力正则化损失来约束不同类型的边计算的权重, 在类别间形成对比, 增强相同类别而弱化不同类别局部间的语义关系来正确地描述局部关系, 让局部特征学习到对其类别更加显著的信息, 从而取得更好的聚簇特性. 除此之外, 本文还通过知识蒸馏将异构局部交互图模块学习到的优化信息反馈给特征提取网络, 让网络能够直接提取具有区分度的图像特征表示.
总结起来, 本文主要贡献如下: 1) 提出了注意力累计目标定位模块, 在单张图像上能够从不同的训练轮次和特征提取阶段对注意力信息进行语义目标集成定位, 从而排除无关背景噪声的干扰. 2) 提出构建异构局部交互图, 学习多张图像局部部件之间存在的语义联系并且针对图中不同类型的边进行相应的损失约束, 从而能够增强特征表示的判别力. 3) 建立了一个用于图像细粒度分类的多流网络, 能够学习从粗到细不同粒度的特征, 有效地结合图像的全局信息和局部信息, 在多个不同的数据集上和许多同类型方法进行对比, 该方法能够取得更好的表现.
图 3 模型的基本框架图
本文构建了一种有效的多流弱监督学习网络, 在不需要额外的边界框或者部件标注情况下用于图像细粒度分类任务. 为了结合图像的全局和局部信息, 采取一种从粗粒度到细粒度的结构, 通过注意力累计目标定位模块有效地从原图像中定位目标, 再对目标图像进行显著性区域采样获取到部件图像. 本文利用图像局部部件之间存在的语义关系, 设计了一个多张图像输入的异构局部交互图模块, 基于一种对比学习的思想, 对局部正样本对和负样本对之间的关系进行相应的约束从而让特征学习到对类别更加显著的信息, 解决细粒度图像的目标外观相似的问题.
作者简介
陈权
福州大学计算机与大数据学院硕士研究生. 主要研究方向为计算机视觉. E-mail: justchenquan@gmail.com
陈飞
福州大学计算机与大数据学院副教授. 主要研究方向为计算机视觉, 机器学习和图信号处理. 本文通信作者. E-mail: chenfei314@fzu.edu.cn
王衍根
福州大学计算机与大数据学院硕士研究生. 主要研究方向为计算机视觉. E-mail: lCRZakHCfh237@hotmail.com
程航
福州大学数学与统计学院教授. 主要研究方向为机器学习和多媒体信息安全. E-mail: hcheng@fzu.edu.cn
王美清
福州大学数学与统计学院教授. 主要研究方向为图像处理和数值计算. E-mail: mqwang@fzu.edu.cn
转载本文请联系原作者获取授权,同时请注明本文来自欧彦科学网博客。
链接地址:https://wap.sciencenet.cn/blog-3291369-1465823.html?mobile=1
收藏