Ouariel的个人博客分享 http://blog.sciencenet.cn/u/Ouariel

博文

基于个性化联邦强化学习的异构多微网能量调度

已有 1054 次阅读 2025-10-28 15:05 |系统分类:博客资讯

引用本文

 

郭方洪, 伍泽芃, 杨淏, 王雷, 李国齐. 基于个性化联邦强化学习的异构多微网能量调度. 自动化学报, 2025, 51(9): 20722084 doi: 10.16383/j.aas.c250130

Guo Fang-Hong, Wu Ze-Peng, Yang Hao, Wang Lei, Li Guo-Qi. Energy scheduling of heterogeneous multi-microgrid based on personalized federated reinforcement learning. Acta Automatica Sinica, 2025, 51(9): 20722084 doi: 10.16383/j.aas.c250130

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c250130

 

关键词

 

多微网,能量调度,联邦强化学习,设备异构,隐私保护

 

摘要

 

针对多智能体强化学习中隐私泄露及联邦强化学习在多微网设备异构环境下失效的问题, 提出一种基于个性化联邦强化学习的异构多区域微电网能量调度方法. 该方法将状态−动作对拆分为“私有”和“共有”两类, 分别输入模块化Critic网络中的私有解构层和公有解构层, 仅在公有层中部署联邦框架, 既实现公共设备网络参数的同步共享, 又保留各区域私有设备的个性化训练, 从而在保护数据隐私的前提下完成协同优化; 同时, 引入多Critic网络随机抽样架构进行本地训练, 有效缓解Q值高估导致的策略性能下降问题. 最后, 基于三类典型微电网模型构成的异构多区域微网系统开展仿真实验. 结果表明该方法可有效克服设备异构限制, 使区域智能体快速收敛至接近最优的策略, 合理分配设备出力, 实现多微网实时能量调度并提升经济效益.

 

文章导读

 

当前, 能源需求的快速增长与环境问题促使各国加快发展新能源、实现能源结构高质量转型[1−2]. 微电网(Microgrid, MG)作为由分布式发电、负荷、储能装置等组成的小规模电网[3], 为可再生能源的利用提供了有效途径. 但随着分布式发电设备接入比例升高, MG的运行安全和供需侧实时平衡面临巨大挑战[4−5]. 为确保电网的安全稳定并提升供电可靠性, MG实施合理的能量调度至关重要[6].

 

在能量调度方法中, 传统数值优化方法在应对可再生能源不确定性引起的负荷波动时灵活性不足, 而强化学习(Reinforcement learning, RL)方法以其无模型假设、数据驱动和动态调整策略等优势, 已得到广泛应用[7−9]. 其主流框架通常基于Actor-Critic结构, 通过Actor网络生成调度策略并由Critic网络评估策略价值. 文献[7]提出改进型深度确定性策略梯度(Deep deterministic policy gradient, DDPG)算法, 结合优先经验回放机制, 优化住宅多能系统在多维连续状态动作空间下的实时能量管理; 文献[8]则引入延迟双重深度确定性策略梯度算法, 并结合生成对抗网络生成场景集, 实现多能微电网的能量管理; 文献[9]提出基于改进软行为评价器的算法, 利用长短期记忆网络提取时间特征, 提升多能系统的随机能量调度性能.

 

然而, 为实现更大范围的资源优化配置, 多个MG共同接入主网构成多区域微网系统(Multi-region microgrid system, MRMS). MRMS, 采用单智能体RL算法进行整体能量调度将面临训练难度与计算复杂度急剧上升的问题[10]. 智能体在高维状态动作空间中难以高效探索最优策略, 训练过程易陷入局部最优或策略学习停滞, 影响算法的收敛性及鲁棒性. 虽然多智能体强化学习(Multi-agent reinforcement learning, MARL)通过协作式训练在一定程度上缓解了上述问题, 但各区域MG的运行数据(如负荷需求、发电成本、储能状态等)通常涉及商业机密与用户隐私, 共享全局观测量易导致数据泄露或滥用, 从而限制了MARL在实际场景中的实用性.

 

联邦强化学习(Federated reinforcement learning, FRL)为在隐私保护前提下的MRMS能量调度提供了新思路. 与传统单智能体算法相比, FRL通过去中心化训练与本地化状态空间, 更具灵活性与可扩展性[11]. 相较于MARL, 其允许各节点本地训练, 无需共享原始数据, 既降低通信开销, 又保护用户隐私. 鉴于Critic网络在策略评估中负责全局价值函数的学习, 其训练目标在各参与方之间具有一致性, FRL研究主要针对Critic参数进行联邦交互. 文献[12]提出一种FRL框架, 通过本地训练与全局服务器聚合Critic参数, 实现智能MG的分布式能量优化调度; 基于物理信息奖励设计联邦多智能体深度强化学习算法, 文献[13]通过参数聚合提升系统经济性与自给率; 文献[14]在多能源MG训练场景中引入加密参数聚合, 在保障数据隐私安全的同时有效减轻通信负担; 通过在联邦多智能体框架基础上结合动态聚类与本地微调, 文献[15]实现隐私保护下的高效能量分配与低碳经济目标. 然而, 为保证模型参数正确交互, 上述FRL方法均假设各MG设备构成完全一致, 实际应用中不同MG间的状态与动作空间存在差异, 导致Critic网络结构不一致, 联邦框架无法直接实施. 因此, 现有FRL方法在异构MRMS中部署时仍面临重大挑战.

 

综上所述, 针对现有FRL方法在设备异构环境下难以有效应用的问题, 本文提出一种面向异构MRMS的个性化联邦强化学习调度方法. 该方法为每个MG节点部署独立智能体, 采用多Critic网络随机抽样(Random sampling Critic network ensemble, RS-CNE)架构进行本地训练, 有效缓解Q值高估导致的策略性能下降问题; 同时, 通过模块化Critic网络, 在保留各区域个性化特性的基础上, 利用联邦框架实现区域间协作训练, 以提升全局调度性能. 最后, 在基于三类典型MG构建的MRMS模型上开展算例仿真与对比实验, 结果表明所提方法能够在异构MRMS场景中显著缩短策略收敛时间、提高训练稳定性, 并在整个调度周期内实现更优的能量分配, 提升各MG经济效益.

1  基于个性化联邦强化学习的异构多区域微网系统调度架构

2  区域智能体本地训练示意图

3  模块化Critic网络结构图

 

本文针对MARL面临的隐私泄露风险, 以及FRL在区域设备异构环境下的失效问题, 提出一种基于个性化FL的异构MRMS能量调度方法. 首先, 设计模块化Critic网络, 将状态动作对拆解为共有私有两类, 分别输入对应的解构层, 使各区域在共享公共设备参数信息的同时, 保留私有设备的个性化训练能力; 随后, 引入RS-CNE策略, 用于本地模型训练, 以缓解Q值过度估计并持续优化调度策略; 最后, 在本地训练基础上融合联邦学习框架, 仅对模块化Critic网络的共有结构层进行参数聚合, 实现保障数据隐私前提下的跨区域协同训练. 通过在三种典型微电网模型上进行离线训练与在线测试, 算例结果表明: 所提方法能够快速生成优化策略, 合理调度常规机组、储能系统及氢能设备的出力, 实现多区域微电网的实时优化调度; 相较于典型深度强化学习算法, 该方法在收敛速度和经济收益方面均具有显著优势, 并有效克服了设备异构环境下联邦框架的局限性. 未来将基于现有微网主网双层调度架构, 引入去中心化点对点交易层, 以增强微电网的本地能量平衡能力与故障韧性, 同时进一步提升运营收益; 此外, 拟在联邦平均聚合策略中融入区域贡献度自适应的动态加权机制, 以提高模型的个性化水平和协同优化效果.

 

作者简介

 

郭方洪

浙江工业大学信息工程学院副教授. 主要研究方向为微电网控制与优化. E-mail: fhguo@zjut.edu.cn

 

伍泽芃

浙江工业大学信息工程学院硕士研究生. 主要研究方向为联邦强化学习, 微电网优化调度. E-mail: 211123030048@zjut.edu.cn

 

杨淏

浙江工业大学信息工程学院博士研究生. 主要研究方向为微电网能量管理. E-mail: haoyang@zjut.edu.cn

 

王雷

浙江大学控制科学与工程学院研究员. 主要研究方向为分布式能源资源协同优化. 本文通信作者. E-mail: lei.wangzju@zju.edu.cn

 

李国齐

中国科学院自动化研究所研究员. 主要研究方向为类脑计算智能. E-mail: guoqi.li@ia.ac.cn



https://wap.sciencenet.cn/blog-3291369-1507826.html

上一篇:基于跨时空稳定因果动态贝叶斯网络的工业过程安全控制
下一篇:单向通信下多队列车辆轨迹同步的DMPC控制器设计
收藏 IP: 222.131.244.*| 热度|

1 王涛

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-11-2 04:35

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部