引用本文
李文平, 杜选. 基于相关性的Swarm联邦降维方法. 自动化学报, 2024, 50(9): 1866−1876 doi: 10.16383/j.aas.c220690
Li Wen-Ping, Du Xuan. Swarm federated dimensionality reduction method based on correlation. Acta Automatica Sinica, 2024, 50(9): 1866−1876 doi: 10.16383/j.aas.c220690
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c220690
关键词
隐私保护,Swarm学习,联邦学习,典型相关分析
摘要
联邦学习(Federated learning, FL)在解决人工智能(Artificial intelligence, AI)面临的隐私泄露和数据孤岛问题方面具有显著优势. 针对联邦学习的已有研究未考虑联邦数据之间的关联性和高维性问题, 提出一种基于联邦数据相关性的去中心化联邦降维方法. 该方法基于Swarm学习(Swarm learning, SL)思想, 通过分离耦合特征, 构建典型相关分析(Canonical correlation analysis, CCA)的Swarm联邦框架, 以提取Swarm节点的低维关联特征. 为保护协作参数的隐私安全, 还构建一种随机扰乱策略来隐藏Swarm特征隐私. 在真实数据集上的实验验证了所提方法的有效性.
文章导读
随着5G和物联网等数字技术的兴起, 各行各业收集了丰富的数据. 为有效挖掘数据中蕴含的知识, 数据持有者希望相关行为主体之间能共享数据[1]. 然而数据共享导致的安全隐患令人担忧, Nature杂志上发表的一项评论曾指出, 数据科学可以聚合公开可用的数据, 这会对隐私安全造成威胁[2]; 一项发表在Science杂志上的评论认为, 数据的隐私保护是人工智能(Artificial intelligence, AI)实用化不可回避的关键问题[3]. 尽管近年来AI技术进步显著, 然而驱动AI的数据的隐私问题未得到考虑. 有研究指出, AI中隐私数据的使用可能触犯道德和法律问题[4]. 还有证据表明, AI中的隐私泄露问题凸显[5]. 可见AI的应用亟需解决隐私问题[6].
联邦学习(Federated learning, FL)技术的兴起可望成为应对AI中隐私威胁的有效解决方案[7], 该技术将数据存储和模型训练阶段转移至本地, 仅与中心服务器交互模型, 既能提升模型性能, 又具有隐私保护功能[8]. FL的发展方向可以归纳为4类, 其一是研究既有AI模型的联邦算法, 其二是探索联邦学习的实现载体, 其三是发展针对特殊数据的联邦学习方法, 其四是开展联邦学习技术的应用探索.
既有AI模型的联邦算法研究, 主要任务是将基于集中式架构的AI模型扩展至联邦场景[9]. 决策树算法和神经网络模型的联邦实现已得到了学者们的关注, 郭艳卿等[10]借助直方图存储结构和混淆布隆过滤器, 将基于集中式架构的决策树算法推广至数据非共享场景下的联邦应用, 在金融数据集上的实验结果显示, 其联合建模的分类准确率接近于集中式架构下的精度, 有效解决了决策树算法的隐私泄露问题; 最近, 张泽辉等[11]开发一种深度神经网络模型在联邦场景下的训练技术, 其方法通过同态加密保护协同训练的网络参数, 获得了计算量小和保护性高的双重效果.
探索联邦学习的实现载体是联邦学习的研究热点, 其中在区块链上的尝试是目前学界的主攻方向. 为解决异步联邦学习的可信性和隐私问题, 高胜等[12]基于共识算法、指数机制和双因子调整策略, 构建一种区块链上的联邦学习方案, 在解决单点失效和隐私泄露方面具有较好效果. 朱建明等[13]的研究更加集中于区块链本身, 模型参数记录和验证都由区块链来实现, 通过惩罚机制约束自利性, 具有参数噪声适时调整和模型适应性聚合能力.
针对特殊数据的联邦学习, 既要满足非共享合作的联邦场景, 又要兼顾数据的特殊性对模型训练的需求, 研究较有挑战性. 冯霁等[14]针对训练阶段攻击问题, 通过扩展DeepConfuse方法生成对抗训练数据, 提出一种联邦AI框架, 结果显示出联邦学习系统的隐私脆弱性. 非独立同分布数据的联邦学习最近得到张泽辉等[15]的关注, 其研究引入混沌系统和同态加密技术, 提出一种联邦局部模型的自适应聚合框架, 获得了较好的精度和较高的训练效率.
联邦学习技术的应用探索较有吸引力, 朱静等[16]从联邦生态的角度出发, 提出一种名为联邦控制的新型控制理论, 深刻论述了联邦控制原理及其广泛应用前景, 为联邦学习技术的应用开辟了一个全新视野. 方晨等[17]的研究结合区块链, 将联邦学习应用于边缘计算场景, 通过动态监测隐私损失, 构建自适应差分隐私机制, 获得了较好的模型精度和较高的隐私保护度. 张沁楠等[18]针对数字经济背景下的安全数据交易需求, 基于区块链和贝叶斯博弈论, 提出一种联邦激励机制, 对解决数据交易的供给不足问题较有参考价值.
上述方法主要基于中心服务器聚合模型参数, 未考虑中心服务器的不可信问题. Warnat等[19]前不久在Nature杂志上报道的Swarm学习(Swarm learning, SL)架构采用去中心化方案, 不需要模型聚合服务器, 通过Swarm网络共享学习参数, 并在各个Swarm边缘节点的私有数据上独立构建模型, 在新型冠状病毒(COVID-19)、结核病、白血病和肺部病变数据集上的分类结果验证了SL架构的高可用性. SL架构原本是基于Swarm网络的一种联邦技术, 但其实现可以是多种载体, 其本质在于去中心化. 本文借鉴SL思想, 提出一种去中心化联邦场景下的数据协同降维方法.
联邦参与方之间协作学习的目的除了保护数据隐私外, 还希望获得较单方数据更好的模型[20]. 已有研究发现, 当参与方之间的数据具有较好关联性时, 联邦协作学习获得的模型识别率更高[21]. 由此可见, 如何有效利用联邦数据之间的关联性提高模型精度或训练效率, 是联邦计算的一个关键科学问题. 此外, 联邦学习中常用的数据往往是高维的[22], 例如图像、视频、音频、基因序列、蛋白质结构数据等的维度往往都较高, 联邦学习如何解决高维数据下的协作效率是一个亟需攻克的重要课题.
尽管联邦数据之间的关联性和高维性可以单独选择不同的技术进行解决, 但是采用同时兼顾二者的集成化方案有望能使问题简单化. 典型相关分析(Canonical correlation analysis, CCA)理论[23]有望成为解决此问题的有效工具. CCA具有坚实的数学理论基础, 是一种成熟的多元统计方法, 能检测多维变量之间的相关性, 同时也是一种基于相关性的降维方法, 已在广泛领域得到了成功应用, 关于CCA较全面的综述建议读者参阅文献[24]. 已有CCA方法主要是基于单节点的计算架构, 即CCA所需的数据集需放到同一个计算节点上, 不适用于联邦场景, 而且参加计算的是原始数据, 隐私问题未得到考虑.
针对联邦数据的关联性和高维性, 本文基于SL思想, 提出一种名为SCCA (Swarm CCA)的协作降维方法, 在去中心化的Swarm场景下, 构建支持隐私保护的CCA求解算法. 创新性工作如下:
1) 剖析CCA隐私泄露的根源在于协方差矩阵需要协作方提供原始数据;
2) 分析经典CCA不适用于Swarm场景的原因是互协方差的耦合导致的, 据此推演出耦合特征的分离解析式;
3) 构建CCA求解的Swarm协作框架, 提出SCCA的求解算法;
4) 对SCCA的隐私性进行分类, 据此提出一种SCCA的特征隐私保护策略;
5) 开展SCCA的仿真实验研究, 在真实数据集上评估SCCA算法的有效性, 并给出其在图像分类上的应用实例.
图 1 SCCA协作序列
图 3 主向量对分类精度的影响
作为去中心化的联邦技术, Swarm学习是解决联邦计算中中心服务器不可信问题的良好框架. 本文基于Swarm学习思想, 针对联邦之间数据的关联性和高维性问题以及联邦数据的隐私保护需求, 提出一种支持隐私保护的Swarm联邦降维方法. 本文在耦合特征分离的基础上, 通过构建典型相关分析的Swarm联邦框架, 经由随机扰乱策略来隐藏Swarm特征隐私, 在Swarm节点本地提取低维特征, 并在真实数据集上进行仿真实验, 结果验证了所提方法的有效性, 同时尝试在图像协作分类中开展示例性应用.
实验结果发现的一个有趣现象是, 在主向量数目增加的过程中, 相对精度曲线呈现出钟形变化趋势, 这提示适当数目的主向量选取是必要的. 如何选取主向量是值得深入探索的科学问题, 因为Swarm协作效率和低维关联特征的可用性都会受其影响, 下一步将展开此内容的研究工作.
作者简介
李文平
嘉兴学院信息科学与工程学院副教授. 主要研究方向为隐私保护技术. 本文通信作者. E-mail: liwenping@hrbeu.edu.cn
杜选
嘉兴学院信息科学与工程学院副教授. 主要研究方向为隐私保护技术. E-mail: duxuan@zjxu.edu.cn
转载本文请联系原作者获取授权,同时请注明本文来自欧彦科学网博客。
链接地址:https://wap.sciencenet.cn/blog-3291369-1458505.html?mobile=1
收藏