|
引用本文
詹兆康, 胡旭光, 赵浩然, 张思琪, 张峻凯, 马大中. 基于多变量时空融合网络的风机数据缺失值插补研究. 自动化学报, 2024, 50(6): 1171−1184 doi: 10.16383/j.aas.c230534
Zhan Zhao-Kang, Hu Xu-Guang, Zhao Hao-Ran, Zhang Si-Qi, Zhang Jun-Kai, Ma Da-Zhong. Study of missing value imputation in wind turbine data based on multivariate spatiotemporal integration network. Acta Automatica Sinica, 2024, 50(6): 1171−1184 doi: 10.16383/j.aas.c230534
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c230534
关键词
风机数据,数据插补,时空特征,生成对抗网络
摘要
风电场数据的完整性会因恶劣天气、输入信号丢失、传感器故障等原因遭到破坏, 而大面积的数据缺失将给风机设备的运行和维护带来严峻考验. 因此, 提出一个多变量时空融合网络(Multivariate spatiotemporal integration network, MSIN)来解决缺失数据问题. 首先, 提出包含缺失值定位−指引机制的MSIN结构, 揭示缺失部分数据的潜在信息, 确保插补数据符合真实分布. 其次, 在网络中设计多视角时空卷积模块, 捕捉同一风机多个变量与多个风机同一变量之间的局部空间和全局时间相关性, 用于提高插补数据的真实性. 接着, 提出网络实时自更新机制, 根据风电场实时变化情况实现在线调整, 能够提升网络泛化能力, 由此弥补重新训练模型的时间和空间成本高的缺陷. 最后, 通过真实的风机数据验证所提网络的有效性和优越性. 相关分析结果表明, 相较于MissForest等传统数据插补方法的插补性能, 平均绝对误差(Mean absolute error, MAE)、平均绝对百分比误差(Mean absolute percentage error, MAPE)和均方根误差(Root mean square error, RMSE)分别下降 18.54%、41.00% 和 3.15% 以上.
文章导读
“碳中和·碳达峰”是促进中国能源经济转型、构建人类命运共同体的重要战略决策, 为实现双碳目标, 风能作为最具竞争力的清洁能源正受到世界范围的强烈关注[1-3]. 风机都配备具有远程监督和控制功能的监控和数据采集(Supervisory control and data acquisition, SCADA)系统, SCADA系统累积了大量风机数据, 但由于地处偏远且环境恶劣, 加之多变的工作条件, 从而导致传感器故障、数据传输噪声和丢失、功率输出受限或设备异常等情况发生[4], 进而使得数据在收集、传输和存储中不可避免地会发生丢失和损坏. 数据缺失会导致三大问题[5-6]: 1) 许多数据驱动的模型不能直接处理含有缺失值的数据集; 2) 缺失数据过多会导致数据集中有效数据的数量减少, 数据的精度降低, 训练达不到理想效果或存在训练过拟合的风险; 3) 缺失数据使训练数据分布出现偏差, 会导致分析结果出现显著偏差, 建立的模型不准确. 数据缺失不仅会破坏信息的完整性, 还会导致数据挖掘和分析出现偏差. 然而, 如状态监测[7]、故障诊断[8]、风–功率预测[9] 和功率曲线建模[10] 等风机下游任务需要有完整数据集才能够完成. 例如, 无线电干扰造成风机状态监测信号数据丢失, 给后续信号处理和状态监测带来困难, 甚至可能会导致状态监测失败[11]. 风机的风速计结冰, 从而在数据中留下空白, 造成的数据丢失可能导致风能资源估算出现偏差[12]. 因此, 需要进行合理的数据插补来提高数据的质量, 以完成风机的下游任务. 数据插补对风机研究有重要意义.
插补方法主要分为基于统计概念的方法(均值、热卡插补和多重插补)和基于数据驱动的深度学习方法(通过模型拟合对缺失值进行预测)两类[13-16].
在基于统计概念的方法中, 通过研究统计特征和缺失数据的概率进行缺失数据插补. Mostafa 等[17] 使用累积线性回归插补算法对插补变量进行累积, 并将变量纳入线性回归方程, 以填补下一个缺失值. Razavi-Far 等[18] 提出基于后插补的期望最大化(Expectation-maximization, EM)算法, 通过融合模块完成插补值的融合. Ye 等[19] 提出一种联合插补模型, 为数据集属性构建一个贝叶斯网络, 通过该网络推断出缺失的属性值. Zhang[20] 提出一种使用R链式方程多重插补(Multiple imputation by chained equations, MICE)逐步进行多重插补的方法. 然而, 基于统计概念的方法的插补性能可能会受到模型假设限制. 例如, EM 算法通常定义所有属性的联合分布, MICE方法通常将缺失数据插补视为一组线性回归问题. 因此, 在属性之间关系复杂的情况下, 以上方法的理想化模型假设应用于风机数据插补时, 由于缺少对数据集未观测数据分布和时空相关性的学习, 插补结果的真实性可能有所欠缺.
近年来, 基于数据驱动的深度学习方法不需要过多模型假设, 其所具备的强大拟合能力和泛化能力使之成为插补缺失数据最常用的方法[21]. Tak 等[22] 提出一种使用K-邻近法的数据驱动型插补方法, 一次插补多个传感器数据. Folguera 等[23] 提出一种基于自组织图的数据插补方法, 该方法以权重的距离对象为概念, 对缺失值进行插补. Pan 等[24] 提出一种基于多层感知器(Multilayer perceptron, MLP)的离散缺失值插补方法, 该方法采用动量梯度下降算法, 并利用预填充策略来提高MLP的插补收敛速度. Khan 等[25] 提出一种卷积神经网络来插补缺失值, 使用经过网络训练的核来完成每个实例的缺失值插补. Yu 等[26] 提出一种时空图卷积网络, 是在图上对问题进行表述, 并用完整的卷积结构构建模型. Zhang 等[27] 提出一种基于残差神经网络的方法, 根据时空数据的属性设计网络的端到端结构. Yoon 等[28] 提出一种生成现实时间序列数据的框架, 将无监督范例的灵活性与有监督训练的控制性结合在一起. 与基于统计概念的方法相比, 数据驱动方法不需要先验知识和显式数学表达式, 并具有可靠的数据插补结果. 然而, 当缺失数据集的时空模式更加复杂时, 上述方法在处理高度复杂、非线性和非平稳的时间序列数据时可能面临挑战, 往往无法完全捕捉这些特征, 难以获得令人满意的数据插补结果. 在插补风机数据时还存在以下难点: 1) 上述插补方法往往只能从原始数据集中提取观测数据集训练模型, 缺少对未观测数据的学习, 插补结果与真实数据相比出现显著偏差; 2) 风机数据具有复杂的时空相关性, 若无法准确描述时空相关性, 会造成插补建模不准确, 数据插补精度大大降低; 3) 风机数据受所处环境影响很大, 多变的环境使数据插补也变得困难, 然而基于固定参数模型的方法难以满足插补需求.
为解决上述问题, 本文提出多变量时空融合网络(Multivariate spatiotemporal integration network, MSIN) 模型, 在设计具有缺失值定位–指引机制的生成对抗网络基础之上, 通过设计多视角时空卷积模块来捕获潜在的全局以及局部的时空关系, 同时考虑到实际风场环境的不确定性和随机变化等因素, 提出实时自更新机制, 用来及时响应外部环境的动态变化.
本文所做的贡献如下:
1) 提出一种面向风机数据的多变量时空融合网络, 网络学习真实底层数据分布进行数据插补. 在此基础上设计缺失值定位–指引机制, 为提出的网络模型提供缺失值信息.
2) 设计多视角时空卷积模块, 通过学习风机时间衰减和空间相关性, 捕捉跨时间步长的依赖关系和空间相关性, 完成赋予时空属性的数据插补研究.
3) 提出联合损失函数, 将能够衡量数据整体、属性和分布的多种损失函数相结合, 量化插补值与实际值的概率分布差异, 实现风机数据局部和全局的插补性能评估.
4) 提出实时自更新机制, 该机制能够从原始数据中学习变化趋势, 并根据数据分布变化完成模型微调, 赋予模型适应性的能力, 从而适应SCADA系统大数据应用场景下风电场动态变化环境.
图 1 风机时空关联分析示意图
图 2 多变量时空融合网络的网络架构
图 3 多视角时空卷积模块
本文设计一种基于生成对抗网络的多变量时空融合方法MSIN, 用于解决风机SCADA数据缺失问题. MSIN是一个包含生成对抗结构、缺失值定位–指引机制、多视角时空卷积模块、联合损失函数模块和实时自更新机制的神经网络, 弥补了其他数据插补模型只关注数据本身的分布而忽视了时间和空间相关性对风机数据的影响的缺陷. 1) 在该方法中, 缺失值定位–指引机制为生成器提供了缺失数据位置信息, 并辅助判别器判别数据真伪; 2) 多视角时空卷积模块通过对局部空间特征相关性和全局时间特征相关性的提取, 捕捉了风机时间序列潜在的时空相关性; 3) 联合损失函数有助于获取缺失数据与相邻数据的关系; 4) 实时自更新机制学习数据分布来处理大量数据, 并且能够根据外部环境的动态变化及时作出响应, 由此使网络能够适应于多变环境. 通过实验对比显示MSIN的插补性能要优于其他方法.
本文通过生成对抗网络实现风电机组缺失数据插补问题的研究, 在此基础上, 仍有以下三点问题需要进一步研究: 1) 研究风电场数据与其他多源数据(如气象、地理信息)的融合, 以提高插补数据的全面性和精确性; 2) 提高模型的可解释性, 通过解释模型参数和决策过程, 使得模型的输出更具可信度; 3) 考虑模型在面对极端天气等情况下的性能, 以提高其在实际应用中的普适性.
作者简介
詹兆康
东北大学信息科学与工程学院硕士研究生. 主要研究方向为神经网络, 基于数据驱动的数据补偿. E-mail: 2200758@stu.neu.edu.cn
胡旭光
东北大学信息科学与工程学院讲师. 主要研究方向为数模混合驱动的能源系统智能化建模、综合高效利用与优化调控. 本文通信作者. E-mail: huxuguang@mail.neu.edu.cn
赵浩然
山东大学电气工程学院教授. 主要研究方向为新能源发电与并网, 新型电力系统建模与仿真和综合能源优化运行与控制. E-mail: hzhao@sdu.edu.cn
张思琪
东北大学信息科学与工程学院硕士研究生. 主要研究方向为基于机器学习的数据预测. E-mail: 2270967@stu.neu.edu.cn
张峻凯
东北大学信息科学与工程学院硕士研究生. 主要研究方向为能源系统的数据预测及分区恢复. E-mail: 2100687@stu.neu.edu.cn
马大中
东北大学信息科学与工程学院教授. 主要研究方向为故障诊断, 容错控制, 能源管理系统, 分布式发电系统、微网和能源互联网的优化与控制. E-mail: madazhong@ise.neu.edu.cn
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-10-20 03:45
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社