引用本文
周洋, 韩冰, 高新波, 杨铮, 陈玮铭. 基于注意力机制和循环域三元损失的域自适应目标检测. 自动化学报, 2024, 50(11): 2188−2203 doi: 10.16383/j.aas.c220938
Zhou Yang, Han Bing, Gao Xin-Bo, Yang Zheng, Chen Wei-Ming. Domain adaptive object detection based on attention mechanism and cycle domain triplet loss. Acta Automatica Sinica, 2024, 50(11): 2188−2203 doi: 10.16383/j.aas.c220938
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c220938
关键词
无监督域自适应,注意力机制,循环域三元损失函数,目标检测
摘要
目前大多数深度学习算法都依赖于大量的标注数据并欠缺一定的泛化能力. 无监督域自适应算法能提取到已标注数据和未标注数据间隐式共同特征, 从而提高算法在未标注数据上的泛化性能. 目前域自适应目标检测算法主要为两阶段目标检测器设计. 针对单阶段检测器中无法直接进行实例级特征对齐导致一定数量域不变特征的缺失, 提出结合通道注意力机制的图像级域分类器加强域不变特征提取. 此外, 对于域自适应目标检测中存在类别特征的错误对齐引起的精度下降问题, 通过原型学习构建类别中心, 设计了一种基于原型的循环域三元损失(Cycle domain triplet loss, CDTL)函数, 从而实现原型引导的精细类别特征对齐. 以单阶段目标检测算法作为检测器, 并在多种域自适应目标检测公共数据集上进行实验. 实验结果证明该方法能有效提升原检测器在目标域的泛化能力, 达到比其他方法更高的检测精度, 并且对于单阶段目标检测网络具有一定的通用性.
文章导读
随着深度学习时代的到来, 许多领域都发生着日新月异的巨大变化, 无论是智慧安防、智慧医疗亦或是目前备受关注的自动驾驶领域都得益于深度神经网络中提取到的高维语义. 目前基于神经网络[1]的深度学习方法在图像分类、目标检测、图像分割等领域取得了卓越的成绩. 但不可否认这些成功的背后都依赖于大量的标注数据, 所以目前大多数深度学习方法可以认为是数据驱动的. 通常地, 机器学习模型需要大量的已标注数据用于训练, 并假设训练集和测试集的数据是同分布的[2], 才能在测试阶段取得较好的效果. 但实际上如果将一个在某种特定场景(或数据集上)训练好的模型直接应用到另一种场景中(或另一个数据集上), 当新场景数据与训练集数据不满足同分布假设的时候, 就会造成模型性能的大幅降低. 这是因为分布上的不一致使得直接应用于训练集外的模型发生了域迁移, 进而导致性能的退化. 这种现象在真实场景中非常常见, 例如自动驾驶场景中训练数据通常从晴朗的白天捕获而来, 而测试环境是没有标注的夜晚或者雨雪天等极端天气都会造成模型精度的骤减. 为解决以上问题, 提出了无监督域自适应方法, 旨在利用源域已有标注的数据和目标域没有标注的数据同时作为网络输入部分, 利用域自适应算法促使网络学习到域不变特征, 进而提升模型在目标域的泛化能力. 这种无监督的域自适应方法[3-4]在早期往往通过一种距离度量来构造损失函数, 在训练过程中通过最小化这个损失函数从而拉近两个域之间的距离; 基于梯度反转层方法[5]的提出为域自适应方向提供了一种新的思路, 与生成对抗网络[6]中的原理类似, 通过构造一个具有梯度反转层的域分类器作为判别器, 利用对抗训练得到能够捕获域不变特性的特征提取器. 域自适应的方法目前在分类和分割任务上都取得了很好的成果并在行人重识别领域也有较好的结合[7-8], 但由于目标检测任务同时涉及到目标分类和目标框的回归使得直接应用域自适应方法存在一定困难, 所以基于域自适应方法在检测任务上的研究工作相对较少并存在一定的挑战.
目前, 大多数方法都是基于双阶段目标检测网络Faster R-CNN (Region convolutional neural network)[9]实现的域自适应目标检测算法. Chen等[10]首次将Faster R-CNN与域自适应算法相结合, 利用对抗特征学习的方法构建梯度反转层和域分类器实现图像级和实例级的特征对齐. Saito等[11]讨论了域分类器对于主干网络浅层和深层特征进行域自适应带来的不同影响, 并且使用Focal Loss[12]作为深层特征的域分类损失函数以解决类别不平衡问题. Shen等[13]进一步讨论了网络不同位置加入Focal Loss所带来的影响. Zheng等[14]引入注意力机制获得权重特征图, 该特征图强调可能存在目标的区域, 并将该特征图和域分类损失加权, 使得网络更加关注于可能存在目标的区域, 同时该方法构建类别原型并计算各类原型之间的相似性, 实现类别特征的对齐. Xu等[15]提出一种类别正则化的策略进一步加强特征对齐, 该策略利用多标签分类器的弱定位能力去指导对抗训练. Hsu等[16]通过关注前景像素来实现基于中心感知的特征对齐, 从而获得更好的跨域自适应性. Chen等[17]在输入端使用循环对抗生成网络(Cycle generative adversarial network, CycleGAN)[18]将源域和目标域的图像转变成一个插值域来联结域间的鸿沟, 同时从域分类器中引入上下文特征向量来增强实例级特征的表达能力. Deng等[19]设计了一种教师−学生蒸馏网络, 将蒸馏损失和域分类损失共同指导网络学习到域不变特征. Xu等[20]结合图的思想, 在源域和目标域构建图结构和图一致性损失, 进而拉近两个域间的距离. Wu等[21]提出一种基于向量分解的解耦学习方法以分离域不变表示和域特异表示, 从而促进了领域不变表示包含更多的领域无关信息.
在单阶段目标检测器上实现域自适应算法相较于双阶段检测器更为困难, 因为其缺少可以提取目标建议的区域提取网络(Region proposal network, RPN)[9], 所以无法直接实现实例级的特征对齐. 文献[22-24]都是基于单阶段多检测框检测器(Single shot multibox detector, SSD)[25]的域自适应目标检测算法. Rodriguez等[24]利用伪标签自训练的思想, 先使用在源域训练好的模型在目标域推理得到伪标签, 再设计伪标签更新的策略使得模型向目标域泛化. 李威等[23]综合源域和目标域中域不变的内容空间及域特有的属性空间表示进行多样性的图像翻译, 从而实现了一种多源域的渐进域自适应算法, 但二者[23-24]都需要先进行源域向目标域的图像翻译, 再作为域自适应检测网络的输入进行训练, 不属于端到端的训练方式. Chen等[22]在图像和像素级别的对齐基础上, 构建原型特征隐式地完成实例级对齐, 但其在实例的选择上缺少目标置信度信息对实例特征进行筛选, 进而导致目标域原型存在较大的偏差. 兼具速度和精度的YOLO (You only look once)系列网络是广受工业界青睐的目标检测器之一, 尽管YOLOv1提出较早, 但YOLO系列检测器的发展却从未停止. 从2015年提出的YOLOv1[26]到目前最新的YOLOv8[27], YOLO系列网络的演进更能体现出目标检测的发展. 先进的YOLO检测器精度和速度也已远远超过Faster R-CNN和SSD网络. Zhang等[28]以YOLOv3[29]检测器为基础实现域自适应YOLO目标检测算法(Domain adaptation YOLO, DAYOLO), 但其只是简单地将文献[10]中的域自适应方法迁移到YOLOv3上. Hnewa等[30]以YOLOv4[31]为检测器提出一种多尺度特征融合的域自适应YOLO目标检测网络(Multi scale domain adaptive YOLO, MS-DAYOLO); Vidit等[32]以YOLOv5[33]作为检测器, 引入自注意力机制自适应捕获目标区域, 从而提高在目标域上的检测精度. 尽管如此, 二者都缺乏对类别特征的对齐[30, 32], 从而导致不同类别之间误对齐带来的精度下降. Li等[34]以YOLOv5作为检测器提出步进式域自适应YOLO目标检测算法(Stepwise domain adaptative YOLO, S-DAYOLO), 在图像级和实例级特征对齐模块之间引入类别一致性模块, 一定程度上缓解了类别特征误对齐带来的影响.
基于此, 本文针对单阶段目标检测算法(以YOLO检测器为主), 提出一种主要基于对抗特征训练的无监督域自适应单阶段目标检测算法. 首先本文设计了一种简单而有效的基于通道注意力机制的域分类器(Channel attention domian classifier, CADC), 用于图像级特征对齐以加强图像级域不变特征的提取, 进而补充域不变信息. 该方法将SE (Squeeze-excitation)通道注意力机制模块[35]与域分类器相结合, 使得网络更加关注域不变特征通道并且抑制域特异特征通道. 进一步地, 通过构造不同类别的原型特征, 设计了一种基于原型的循环域三元损失(Cycle domain triplet loss, CDTL)函数, 在循环域三元损失函数的指导下使不同域之间相同类别原型间的距离尽可能近, 同时使得同一个域中不同类别原型间的距离尽可能远, 进而对齐类别特征. 总的来说, 本文主要贡献如下:
1)为了自适应地搜寻更多的具有域不变特性的特征, 提出基于通道注意力机制的图像级域分类器, 加强模型对域不变信息的学习.
2)为了纠正特征对齐中出现的类别偏差, 设计了一种域间基于原型的循环域三元损失函数以更好地实现类别对齐, 进一步提升检测精度.
3)通过大量实验证明本文方法的有效性, 并适用于单阶段目标检测网络, 可以为后续相关工作提供一定的参考.
图 1 基于注意力机制和循环域三元损失的域自适应目标检测算法流程
图 2 循环域自适应三元损失函数原理
图 3 本文方法在CityScapes→FoggyCityScapes上的主观检测结果
本文提出一种基于注意力机制和循环域三元损失函数的无监督域自适应单阶段目标检测算法. 首先通过在图像级域分类器中引入通道注意力机制, 使得网络更加关注于域不变特征的学习. 其次设计了一种适用于域自适应的三元损失函数引导网络实现基于类别原型的特征对齐. 分别在单阶段目标检测器YOLOv3, YOLOv5s和SSD上进行实验以证明本文方法对单阶段目标检测网络的适配性. 在众多域自适应目标检测公共数据集的实验结果表明, 本文的方法在基于YOLO的域自适应目标检测网络中取得最好的结果, 同时对基于SSD的域自适应目标检测网络也能带来精度的提升. 尽管如此, 本文所提出的循环域三元损失函数依赖于前期目标域原型伪标签的准确性, 当目标域原型伪标签误差较大时使用该方法并不能得到一个很好的检测效果. 未来可以尝试在循环域三元损失函数中使用图来表示类别中心, 从而避免原型构建过程中误差累计导致精度的丢失.
作者简介
周洋
西安电子科技大学电子工程学院硕士研究生. 2020年获得西南石油大学电子信息工程专业学士学位. 主要研究方向为计算机视觉和域自适应目标检测. E-mail: yzhou_6@stu.xidian.edu.cn
韩冰
西安电子科技大学电子工程学院教授. 主要研究方向为智能辅助驾驶系统, 视觉感知与认知, 空间物理与人工智能交叉. 本文通信作者. E-mail: bhan@xidian.edu.cn
高新波
西安电子科技大学教授. 主要研究方向为机器学习, 图像处理, 计算机视觉, 模式识别和多媒体内容分析. E-mail: xbgao@ieee.org
杨铮
西安电子科技大学电子工程学院博士研究生. 2017年获得西安电子科技大学智能科学与技术专业学士学位. 主要研究方向为深度学习, 目标跟踪和强化学习. E-mail: zhengy@stu.xidian.edu.cn
陈玮铭
西安电子科技大学电子工程学院硕士研究生. 2019年获得西安电子科技大学机械设计制造及其自动化专业学士学位. 主要研究方向为计算机视觉, 目标检测和遥感技术. E-mail: wmchen@stu.xidian.edu.cn
转载本文请联系原作者获取授权,同时请注明本文来自欧彦科学网博客。
链接地址:https://wap.sciencenet.cn/blog-3291369-1464502.html?mobile=1
收藏