IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

深度对比学习综述

已有 2191 次阅读 2023-1-14 17:22 |系统分类:博客资讯

引用本文

 

张重生, 陈杰, 李岐龙, 邓斌权, 王杰, 陈承功. 深度对比学习综述. 自动化学报, 2023, 49(1): 15−39 doi: 10.16383/j.aas.c220421

Zhang Chong-Sheng, Chen Jie, Li Qi-Long, Deng Bin-Quan, Wang Jie, Chen Cheng-Gong. Deep contrastive learning: A survey. Acta Automatica Sinica, 2023, 49(1): 15−39 doi: 10.16383/j.aas.c220421

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c220421

 

关键词

 

对比学习,深度学习,特征提取,自监督学习,度量学习 

 

摘要

 

在深度学习中, 如何利用大量、易获取的无标注数据增强神经网络模型的特征表达能力, 是一个具有重要意义的研究问题, 而对比学习是解决该问题的有效方法之一, 近年来得到了学术界的广泛关注, 涌现出一大批新的研究方法和成果. 本文综合考察对比学习近年的发展和进步, 提出一种新的面向对比学习的归类方法, 该方法将现有对比学习方法归纳为5, 包括: 1) 样本对构造; 2) 图像增广; 3) 网络架构; 4) 损失函数; 5) 应用. 基于提出的归类方法, 对现有对比研究成果进行系统综述, 并评述代表性方法的技术特点和区别, 系统对比分析现有对比学习方法在不同基准数据集上的性能表现. 本文还将梳理对比学习的学术发展史, 并探讨对比学习与自监督学习、度量学习的区别和联系. 最后, 本文将讨论对比学习的现存挑战, 并展望未来发展方向和趋势.

 

文章导读

 

近年来, 以深度学习为代表的新一代人工智能技术取得了迅猛发展, 并成功应用于计算机视觉、智能语音等多个领域. 然而, 深度学习通常依赖于海量的标注数据进行模型训练, 才能获得较好的性能表现. 当可用的标注数据较少、而无标注数据较多时, 如何提高深度学习的特征表达能力是亟需解决的重要现实需求. 自监督学习[1]是解决该问题的有效途径之一, 能够利用大量的无标注数据进行自我监督训练, 得到更好的特征提取模型.

 

早期的对比学习起源于自监督学习, 通过设置实例判别代理任务完成自监督学习的目标. 具体而言, 对比学习首先对同一幅图像进行不同的图像增广, 然后衡量得到的图像对特征之间的相似性, 旨在使同一幅图像增广后的图像对特征之间的相似度增加, 而不同图像特征之间的相似度减小. 随着技术的发展, 对比学习已经扩展到监督和半监督学习中, 以进一步利用标注数据提升模型的特征表达能力.

 

近年来, 基于深度学习的对比学习技术取得了突飞猛进的发展. 典型的对比学习方法有SimCLR[2](Simple framework for contrastive learning of visual representations), MoCo[3] (Momentum contrast), BYOL[4] (Bootstrap your own latent), SwAV[5](Swapping assignments between multiple views of the same image), SimSiam[6] (Simple siamese networks) 等算法. 这些技术通常基于类孪生神经网络的网络架构, 但训练过程中所用的图像对为同一幅图像分别增广后得到的图像对 (正样本对), 或不同图像分别增广后构成的图像对 (负样本对). 深度对比学习通过大量的正负样本对间的比对计算, 使得神经网络模型能够对数据自动提取到更好的特征表达. CPC[7] (Contrastive predictive poding) 是深度对比学习的奠基之作, 该算法通过最大化序列数据的预测结果和真实结果之间的相似度 (一致性程度), 优化特征提取网络, 并提出InfoNCE损失, 该损失如今已广泛地应用在对比学习研究中. Khosla[8]提出监督对比学习损失(Supervised contrastive learning loss, SCL loss), 将对比学习的思想扩充到了监督学习中, 旨在利用有标注的数据进一步提升模型的特征表达能力. Chen[9]设计了半监督对比学习算法, 首先对所有数据进行对比学习预训练, 然后使用标注数据将预训练模型的知识通过蒸馏学习的方法迁移到新的模型中.

 

目前, 很少有系统总结对比学习最新进展的英文综述论文[10-12], 中文综述论文更是极度缺乏. 因此, 学术界迫切需要对深度对比学习的最新文献及进展进行全面系统的总结、归纳和评述, 并分析存在的问题, 预测未来发展趋势. 本文聚焦视觉领域的深度对比学习技术, 系统梳理深度对比学习2018年至今的技术演进, 总结该方向代表性的算法和技术. 如图1所示, 本文首先将深度对比学习的相关技术归纳为样本对构造方法层、图像增广层、网络架构层、损失函数层及应用层5大类型. 然后, 综合归纳现有技术的特点及异同之处, 并分析其性能表现, 指出尚未解决的共性问题及相关挑战, 最后勾勒该领域的未来发展方向与趋势.

 1  对比学习方法归类

 

本文的主要贡献概括如下:

1) 基于一种新的归类方法, 将现有的深度对比学习工作进行了系统总结;

2) 比较分析了不同对比学习方法的区别和联系, 及其在基准数据集上的性能表现;

3) 讨论了当前对比学习研究存在的挑战, 展望了未来的研究方向.

 

本文的剩余章节结构安排如下: 1节介绍对比学习的背景知识. 2节引入本文提出的归类方法, 并对每种类型的方法进行详细总结. 3节对现有的对比学习技术进行整体分析, 并比较性能表现. 4节探讨对比学习当前存在的挑战, 及未来发展方向. 最后是全文总结.

 2  常用的对比学习网络架构

 3  对比学习的整体流程及各模块的细分类方法

 

对比学习是近年的研究热点. 本文系统梳理了对比学习的研究现状, 提出一种将现有方法划分为样本对构造层、图像增广层、网络架构层、损失函数层和应用层的归类方法, 并从自监督对比学习算法入手, 分析和归纳近四年主要的对比学习方法. 而且, 本文还全面对比了不同方法在各种下游任务中的性能表现, 指出了对比学习现存的挑战, 勾勒了其未来发展方向. 对比学习研究作为一个快速发展的研究领域, 在理论依据、模型设计、损失函数设计及与下游任务结合等方面还有较大的研究空间.

 

作者简介

 

张重生

河南大学计算机与信息工程学院教授. 主要研究方向为长尾学习与不均衡学习, 基于深度学习的汉字识别和古文字计算. E-mail: cszhang@henu.edu.cn

 

陈杰

河南大学计算机与信息工程学院硕士研究生. 主要研究方向为计算机视觉与模式识别. E-mail: jiechen@henu.edu.cn

 

李岐龙

河南大学计算机与信息工程学院博士研究生. 主要研究方向为对比学习和文字识别. 本文通信作者. E-mail: qilonghenu@henu.edu.cn

 

邓斌权

河南大学计算机与信息工程学院硕士研究生. 主要研究方向为计算机视觉与模式识别. E-mail: bqdeng@henu.edu.cn

 

王杰

河南大学计算机与信息工程学院硕士研究生. 主要研究方向为计算机视觉与模式识别. E-mail: wangjie@henu.edu.cn

 

陈承功

河南大学计算机与信息工程学院硕士研究生. 主要研究方向为计算机视觉与模式识别. E-mail: cgcheng@henu.edu.cn



https://wap.sciencenet.cn/blog-3291369-1371965.html

上一篇:《自动化学报》2023年49卷1期目录分享
下一篇:基于一步张量学习的多视图子空间聚类
收藏 IP: 222.131.247.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-29 22:33

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部