科学网-基于图像特定分类器的弱监督语义分割-Ouariel的博文

基于图像特定分类器的弱监督语义分割

2025-7-17 16:34

阅读：331

引用本文

郭子麟, 吴东岳, 高常鑫, 桑农. 基于图像特定分类器的弱监督语义分割. 自动化学报, 2025, 51(6): 1191−1204 doi: 10.16383/j.aas.c240636

Guo Zi-Lin, Wu Dong-Yue, Gao Chang-Xin, Sang Nong. Image-specific classifiers for weakly supervised semantic segmentation. Acta Automatica Sinica, 2025, 51(6): 1191−1204 doi: 10.16383/j.aas.c240636

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c240636

关键词

语义分割，图像级标签，分类器，类激活图，弱监督学习

摘要

基于图像级标签的弱监督语义分割算法因极低的标注成本引起学界广泛关注. 该领域的算法利用分类网络产生的类激活图实现从图像级标签到像素级标签的转化. 然而类激活图往往只关注于图像中最显著的区域, 致使基于类激活图产生的伪标签与真实标注存在较大差距, 主要包括前景未被有效激活的欠激活问题以及前景间预测混淆的错误激活问题. 欠激活源于数据集类内差异过大, 致使单一分类器不足以准确识别同一类别的所有像素; 错误激活则是数据集类间差异过小, 导致分类器不能有效区分不同类别的像素. 本文考虑到同一类别像素在图像内的差异小于在数据集中的差异, 设计基于类中心的图像特定分类器, 以提升对同类像素的识别能力, 从而改善欠激活, 同时考虑到类中心是类别在特征空间的代表, 设计类中心约束函数, 通过扩大类中心间的差距从而间接地疏远不同类别的特征分布, 以缓解错误激活现象. 图像特定分类器可以插入其他弱监督语义分割网络, 替代分类网络的分类器, 以产生更高质量的类激活图. 实验结果表明, 本文所提出的方案在两个基准数据集上均具有良好的表现, 证实了该方案的有效性.

文章导读

语义分割是当今计算机视觉的核心任务之一, 其目的是为图像中的每个像素赋予对应的语义标签. 该任务具有广泛的下游应用, 例如: 自动驾驶[1], 视频编辑[2], 工业机器人[3]等.

随着深度学习的提出和发展, 该领域也不断实现突破. 当前的语义分割算法通常基于卷积神经网络[4] (Convolutional neural network, CNN)以及视觉自注意力模型[5] (Vision Transformer, ViT), 在大量数据样本(图像−标签)的监督下训练, 训练完成的模型用于实际的推理测试. 在这种范式下得到的模型, 其性能很大程度上取决于样本的数量.

然而, 语义分割作为一种像素级的分类任务, 获取训练样本标签的过程极其费时费力. 据统计, 对于CityScapes数据集[6], 一张2048$ \times $1024的图像大约需要2 h的标注时间. 为减轻标注带来的成本代价, 研究者们尝试利用弱标签(边界框标签[7]、涂鸦标签[8]以及图像级标签[9])训练网络, 其中图像级标签因其极低的标注成本而备受青睐.

当前基于图像级标签的弱监督语义分割(Weakly supervised semantic segmentation, WSSS)算法主要依赖于类激活图[10] (Class activation maps, CAMs), 它是特征图经分类器产生的得分图, 通过空间归一化(Spatial normalization, $ S \text{-} N $)后得到的结果, 能够凸显出图像中分类器判定的与类别相关的区域. 然而, 类激活图存在一个明显的缺陷, 即其只能关注到图像中最显著的区域. 因此基于类激活图产生的伪标签与真实标注还存在很大的差距.

针对类激活图存在的缺陷, 研究者们提出一系列的解决方案. 早期的学者设计一种随机擦除的策略[11−12], 通过擦除图像中最显著的区域, 将修正后的图像重新送入网络迫使其关注到图像中的其他区域, 迭代上述过程从而实现对类激活图的逐步扩张. PSA[9] (Pixel-level semantic affinity)利用随机游走策略, 将类激活图中的前景扩充至与其相似的邻域像素. 此外, 其他研究者们各自设计相应的辅助模块或者损失函数, 通过修正网络产生的特征图提升类激活图的质量[13−14].

尽管上述方法相较于基准网络而言在一定程度上改善了类激活图的质量, 但是本文认为还有很大的改进空间. 回顾类激活图的产生过程, 其本质上是特征图与分类器的作用结果. 绝大多数方法都侧重于改善网络产生的特征图, 却忽视了分类器的作用. 数据集中通常会存在类内差异过大以及类间差异过小的问题. 类内差异过大会导致单一分类器无法有效地识别同一类别中的所有像素, 因此产生的类激活图只能关注到图像中的一部分区域. 而类间差异过小则会导致分类器无法有效区分不同类别的物体, 导致类间预测错误, 这种问题在物体边界上尤为明显.

针对类内差异过大而单一分类器无法有效识别所有同类像素, 导致类激活图只关注于图像中最显著区域的问题, 本文提出为每幅图像构建特定分类器替代单一分类器产生类激活图. 图像特定分类器(Image-specific classifier, ISC)由类中心生成器产生, 并与图像特征基于相似度计算产生类激活图. 一方面, 类中心是类别在特征空间中的表达, 图像中的像素特征会与自身所属类别的类中心更为相近, 因此在与所有类别的类中心进行相似度计算后, 会在所属类别对应的通道上拥有更大的数值, 从而在经过后续的归一化流程后实现了激活; 另一方面, 单一图像内部的类内差异小于数据集中的类内差异, 因此设计图像特定分类器可以解决单一分类器因识别能力欠缺, 导致类激活图只关注于图像中最显著区域的问题.

针对类间差异过小而分类器不能有效区分不同类别的像素特征, 导致类激活图出现类间预测错误现象, 设计类中心约束函数(Class center constrained loss function, $ L_{cccl} $)扩大不同类中心间的差异. 类中心本质上是同类像素特征加权平均的结果, 因而对类中心施加的约束将扩散至该类对应的像素上, 从而扩大类间差异, 有助于缓解类间预测错误现象.

本文提出的方法作为一个可插入性方案, 可以与其他弱监督语义分割模型相结合, 以产生更高质量的CAM. 图1中给出相应的示例, 本文选取四幅含有“巴士”类别的图像, 在图的上下方提供SEAM[15] (Self-supervised equivariant attention mechanism)以及搭配ISC的SEAM产生的类激活图结果, 而在中间展示这四幅图像中“巴士”对应的像素特征、SEAM的全局分类器以及这四幅图像各自ISC的可视化结果. 可视化结果显示, 单一的全局分类器无法有效识别不同图像的同一类别特征, 而本文提出的图像特定分类器则可以有效解决这一问题, 因此搭配ISC的SEAM相较于SEAM本身而言, 所产生的类激活图覆盖效果更为完整和准确.

图 1 类激活图与特征、全局分类器以及图像特定分类器在t-SNE下的可视化结果

本文的主要贡献包含以下三个方面:

1) 提出基于类中心构建图像特定分类器的方法, 改善基于单一分类器产生的类激活图只关注图像中最显著性区域的问题;

2) 设计类中心约束函数, 通过约束类中心间接地扩大类间差异, 缓解类激活图中常见的类间预测错误现象;

3) 在两个基准数据集PASCAL VOC 2012[16]和MS COCO 2014[17]上进行大量实验, 证实所提方案的有效性.

图 2 基于图像特定分类器的网络框架

图 3 类中心生成器示意图

本文从改善分类器的角度出发, 设计图像特定分类器, 用于替代传统弱监督语义分割算法中的单一分类器产生类激活图. 该方法以图像中的类中心作为图像特定的分类器, 解决单一分类器因类内差异过大而无法有效分类同类所有像素的问题, 同时设计类中心约束函数, 通过约束不同类的类中心的关系间接改善类间错误激活问题. 本文所提出的方法具有可插入性, 可以与其他弱监督语义分割模型搭配, 以提供更高质量的类激活图和伪标签. 在实验阶段探讨不同相似度度量算法、不同形式的类中心约束函数以及不同超参数设置对实验结果的影响, 同时与其他可插入性方法对比了计算消耗、运算速度、参数量以及显存占用, 分析各方法的优劣. 最后在多个不同模型以及两个数据集上进行大量实验, 证明本文所提出方案的有效性.

作者简介

郭子麟

华中科技大学人工智能与自动化学院博士研究生. 主要研究方向为语义分割. E-mail: zilin_guo@hust.edu.cn

吴东岳

华中科技大学人工智能与自动化学院博士研究生. 主要研究方向为语义分割, 模型剪枝. E-mail: dongyue_wu@hust.edu.cn

高常鑫

华中科技大学人工智能与自动化学院教授. 主要研究方向为模式识别, 视频分析. E-mail: cgao@hust.edu.cn

桑农

华中科技大学人工智能与自动化学院教授. 主要研究方向为低质图像增强, 图像/视频语义分割, 行为检测与识别, 行人检索. 本文通信作者. E-mail: nsang@hust.edu.cn

转载本文请联系原作者获取授权，同时请注明本文来自Ouariel科学网博客。

链接地址：https://wap.sciencenet.cn/blog-3291369-1494107.html?mobile=1

分享到:

当前推荐数：0

推荐到博客首页

网友评论0 条评论

该博文允许注册用户评论请点击登录