IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

深度域适应综述: 一般情况与复杂情况

已有 2432 次阅读 2021-3-26 16:08 |系统分类:博客资讯

深度域适应是指:给定一个有标签的源域数据集和一个无标签的目标域数据集,源域数据与目标域数据的条件概率分布相同但边缘概率分布不同。深度域适应算法的任务就是利用有标签的源域数据学习一个深度神经网络来完成目标域中的任务。


范苍宁, 刘鹏, 肖婷, 赵巍, 唐降龙. 深度域适应综述: 一般情况与复杂情况. 自动化学报, 2021, 47(3): 515−548

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200238?viewType=HTML


信息时代产生的大量数据使机器学习技术成功地应用于许多领域. 大多数机器学习技术需要满足训练集与测试集独立同分布的假设, 但在实际应用中这个假设很难满足. 域适应是一种在训练集和测试集不满足独立同分布条件下的机器学习技术. 一般情况下的域适应只适用于源域目标域特征空间与标签空间都相同的情况, 然而实际上这个条件很难满足. 为了增强域适应技术的适用性, 复杂情况下的域适应逐渐成为研究热点, 其中标签空间不一致和复杂目标域情况下的域适应技术是近年来的新兴方向. 随着深度学习技术的崛起, 深度域适应已经成为域适应研究领域中的主流方法.


图1.png


机器学习已经在许多领域中成功应用, 但是收集并标注与测试集具有相同分布的样本的代价是高昂的. 当训练集和测试集的分布存在差异时, 由训练集得到的模型不能在测试集上取得良好的预测结果. 迁移学习就是解决训练集(源域) 与测试集(目标域) 之间存在分布差异的机器学习方法, 其核心是找到源域和目标域之间的相似性, 并利用相似性将在源域中获得的知识应用于目标域. 迁移学习按照问题的背景设置可以划分为两类, 第1 类是源域目标域标签空间和特征空间都相同的域适应, 即一般情况下的域适应; 第2 类是复杂情况下的域适应, 其包含多个子方向, 如标签空间不一致的域适应, 复杂目标域情况下的域适应等. 一般情况下的域适应问题是背景条件约束更严格的迁移学习问题. 复杂情况下的域适应问题可以通过对一般情况下的域适应方法改进加以解决, 域适应问题是迁移学习领域中的研究重点, 是迁移学习的基本问题.


深度学习是近年来机器学习领域的研究热点. 深度学习算法从大规模数据中提取知识, 其性能显著超越传统机器学习方法. 深度学习取得优异性能的原因在于深度神经网络具有很强的特征提取能力. 多层的网络结构意味着可以获得关于样本的更高层次的语义信息, 这种信息可以帮助网络更好地完成任务. 应用在域适应问题中的深度学习方法称为深度域适应, 其中心思想是用深度神经网络对齐源域与目标域的数据分布. 与传统方法相比, 深度域适应方法获得的特征不仅有更强的泛化能力还有更好的可迁移性. 深度域适应方法正是在这个背景下兴起的.


图2.png


一般情况下的域适应:深度域适应是指使用深度学习技术来解决一般情况下的域适应问题, 即单源域单目标域的无监督同构域适应问题. 这一类问题是迁移学习领域中的研究重点, 而且也同样是复杂情况下的域适应问题的特殊情况. 深度学习已经成功地应用在了许多领域, 并取得了惊人的效果. 对深度神经网络的可解释性研究表明网络的浅层提取模式的基本组成结构, 如图像中的点、线、拐角等特征; 网络的深层提取与任务相关的高层语义信息. 一个训练好的网络的浅层可以作为新任务的初始模型, 这种训练方式称为预训练. 使用浅层网络权重初始化一个新任务网络的训练方式相当于将已有知识迁移到新的任务中, 这是深度学习在知识迁移中最朴素的应用. 两种知识迁移的方式. 一种是用源域网络浅层权重初始化目标域网络, 然后以微调方式训练目标域网络; 另一种是冻结网络浅层权重, 从头训练目标域网络深层权重. 这两种方式都在迁移源域中与基本组成结构相关的知识. 值得注意的是, 微调技术使用了目标域中带标签的样本, 即微调技术只适用于有监督迁移学习, 而不能用来解决无监督迁移学习. 与微调技术相比, 域适应的重点在于更充分地挖掘源域与目标域的相似性, 并且更灵活地在目标域任务中应用两个域之间的相似性, 使在源域训练获得的知识在目标域任务中发挥更大的作用. 根据深度神经网络在域适应方法中发挥的不同作用, 深度域适应方法可以分为四类: 基于领域分布差异的方法、基于对抗的方法、基于重构的方法和基于样本生成的方法.


复杂情况下的域适应:复杂情况下的域适应问题可以分为标签空间不一致的域适应问题和复杂目标域情况下的预适应问题. 与经典域适应方法相比, 标签空间不一致的域适应方法的通用性更好, 可以解决源域与目标域标签空间不一致的实际问题. 一般情况下的域适应问题属于闭集域适应. 闭集是指空间或集合相同, 闭集域适应是指源域和目标域标签空间相同(两个域包含相同物体类别) 的域适应问题. 在实际应用中, 寻找到与目标域具有相同标签空间的源域比较困难. 在多数情况下, 源域的标签空间与目标域标签空间之间存在很大差别. 差别可以分为很多种情况, 例如源域标签空间是目标域标签空间的子集, 目标域标签空间是源域标签空间的子集, 或者无法得知两个标签空间确切的集合关系. 为了使域适应算法能够适用于上述情况, 研究者们对标签空间不一致的域适应问题进行了研究. 复杂目标域情况下的域适应用来解决存在多个目标域或者目标域不可得的域适应问题. 经典域适应问题默认目标域样本从同一个分布中采样, 但这是对实际情况的简化. 实际应用中更有可能遇到需要从源域同时迁移到具有不同分布的多个目标域的情况. 甚至在某些情况下, 目标域样本是不可得的, 这时只能从源域中训练泛化性能足够好的模型来满足目标域中的任务需求. 这类问题称为复杂目标域情况下的域适应问题.


作者简介


范苍宁

哈尔滨工业大学模式识别与智能系统研究中心博士生. 分别在2016年和2018年获得哈尔滨工业大学的学士学位和硕士学位. 主要研究方向包括迁移学习和机器学习.

E-mail: fancangning@gmail.com


刘  鹏

哈尔滨工业大学计算机科学与技术学院教授. 2007年获得哈尔滨工业大学微电子和固体电子学博士学位. 主要研究方向包括图像处理, 视频分析, 模式识别和大规模集成电路设计.

E-mail: pengliu@hit.edu.cn


肖  婷

哈尔滨工业大学计算机科学与技术学院博士生. 在2016年获得哈尔滨工业大学计算机应用硕士学位. 主要研究方向包括图像处理, 计算机视觉和机器学习.

E-mail: xiaoting1@hit.edu.cn


赵  巍

哈尔滨工业大学计算机科学与技术学院副教授. 曾获黑龙江省科学技术进步一等奖. 主要研究领域包括模式识别, 机器学习和计算机视觉.

E-mail: zhaowei@hit.edu.cn


唐降龙

哈尔滨工业大学计算机科学与技术学院教授. 在1995年获得哈尔滨工业大学计算机应用技术博士学位. 主要研究方向包括模式识别, 图像处理和机器学习.

E-mail: tangxl@hit.edu.cn



https://wap.sciencenet.cn/blog-3291369-1278723.html

上一篇:直播预告‖自动化前沿热点讲堂之第十一讲
下一篇:南京农业大学舒磊教授:智慧农业发展模式、关键技术、安全与隐私对策及挑战
收藏 IP: 159.226.182.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-23 16:53

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部