|
引用本文
田昊, 汤健, 夏恒, 王天峥, 余文, 乔俊飞. 基于IT2FBLS强化学习PID的MSWI过程炉膛温度控制. 自动化学报, 2025, 51(7): 1626−1641 doi: 10.16383/j.aas.c240074
Tian Hao, Tang Jian, Xia Heng, Wang Tian-Zheng, Yu Wen, Qiao Jun-Fei. Furnace temperature control using IT2FBLS-based reinforcement learning PID for MSWI process. Acta Automatica Sinica, 2025, 51(7): 1626−1641 doi: 10.16383/j.aas.c240074
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c240074
关键词
城市固废焚烧,炉膛温度控制,强化学习,区间II型模糊宽度学习系统,Actor-critic网络,共享机制,PID参数优化
摘要
城市固废焚烧(MSWI)过程中固有的非线性、时变性和不确定性导致领域专家需要凭借经验通过高频率手动干预进行炉膛温度控制. 针对上述问题, 为模拟专家的自适应机制, 提出基于强化学习的比例−积分−微分(PID)自整定控制策略, 即采用共享机制区间II型模糊宽度学习系统(IT2FBLS)拟合Actor-critic网络(ACN)进行PID参数优化. 首先, 采用共享机制IT2FBLS拟合ACN以克服焚烧过程的不确定性、减少计算消耗和确保紧凑的网络结构; 然后, 利用基于时间差分误差的梯度下降法更新ACN参数以实现快速学习; 最后, 利用李雅普诺夫方法, 证明Actor-critic算法的收敛性和控制过程的稳定性. 通过MSWI过程的实际运行数据仿真验证了该方法的有效性.
文章导读
城市固废(Municipal solid waste, MSW)的处理问题已成为全球日益突出的环境挑战难题[1-3], 对世界生态文明建设具有深远影响[4-5]. 据统计, 全球年增长率已达到8% ~ 10%的MSW[6], 已成为碳排放的主要来源之一[7]. 为实现全球“净零”碳排放目标[8], MSW的有效处理已经成为世界范围内亟待解决的问题. MSW焚烧(MSW incineration, MSWI) 因其具有减量化、资源化和无害化等优势[9], 已成为城市可持续发展和绿色环保的关键环节[10], 在低碳、环保和可持续能源等领域均具有重要作用[11]. 目前, MSWI发电厂主要采用“3T+E”原则进行燃烧控制, 其中的1T为保持炉膛温度(Furnace temperature, FT)稳定在850 ℃以上[12], 其稳定与否直接关系到焚烧过程的污染减排和减容减质水平. 受我国地域差异、经济水平、城镇管理和季节交替等因素的影响, 产生的MSW存在组分不确定、热值差异大和含水率波动大等问题[13], 为FT的稳定控制带来了不确定扰动. 已有研究者展开了以FT为关键被控变量的控制研究, 包括: Tian等[14]设计基于增长−删减−合并的自组织模糊神经网络(Fuzzy neural network, FNN)控制器; 丁海旭等[15]设计基于多任务学习的自组织FNN控制器; Ding等[16-18]和He等[19]针对FNN控制器设计事件触发机制以提升更新效率; 汤健等[20]设计区间二型FNN (Interval type-2 FNN, IT2FNN) 控制器以进一步增强控制系统处理不确定性的能力等. 上述智能控制算法已基于实际工业数据仿真验证了有效性, 但仍存在控制器计算过程复杂和最优结构难确定等问题. 相对而言, 具有结构简单和易于设计等特点的比例−积分−微分(Proportional-integral-derivative, PID)控制器在工程自动控制系统中占据约95%的使用率[21-22], 影响力显著[23]. 因此, 下文分别从面向炉膛温度的PID控制、面向PID参数的强化学习(Reinforcement learning, RL)和本文研究动机等3个方面予以描述.
1)面向炉膛温度的PID控制. 王天峥等[24]采用传统增量式PID控制器实现了FT恒定值控制, 但未对PID参数进行整定. 在实际焚烧过程中, 被控对象固有的非线性、时变性和大滞后等特点以及环境噪声等外界因素的干扰, 导致难以建立精确的数学模型并确定最优控制器参数. 传统PID在控制精度、自学习能力和自适应性方面存在局限. 因此, 探索具备在线自适应参数整定能力的PID成为重要研究方向[25]. 目前, PID的参数整定方法主要分为无模型和基于被控对象模型[23]. 针对MSWI过程而言, 考虑到难以获得精确的FT被控对象模型, 已有研究主要集中在基于数据驱动的无模型方法上, 相关研究包括: 何海军等[26-27]采用径向基函数神经网络(Radial basis function neural network, RBFNN)实现温度区间为935 ~ 940 ℃的变设定值控制; Ding等[28] 构造温度控制范围确定在970 ~ 1000 ℃之间的基于准对角递归神经网络(Neural network, NN)的自适应PID控制器. 上述基于NN的自适应PID控制器通过监督学习实现整定, 存在易过拟合、难以全局寻优以及教导信号获取困难等局限性[29]. 在其他工业领域, Liu等[30]采用模糊逻辑自适应整定PID参数, 但依赖先验知识; Ghith 等[31]和He等[32]采用智能优化算法在线寻优PID参数, 但其存在收敛速度较慢和难以获得最优解等问题. Du等[33]针对污水处理过程的溶解氧控制问题设计基于梯度下降法的自适应PID控制器, 但其依赖控制器参数初值的选择. 因此, 为提高PID控制器的计算速度和自主学习能力, 减少其对先验知识和参数初值的依赖, 有必要进一步针对自适应PID参数整定方法展开研究.
2)面向PID参数的RL. RL通过与环境的交互, 基于奖励机制进行优化控制, 克服了上述NN寻优PID参数等策略中教导信号获取难等问题. 同时, RL通过试错和自我调整进行优化, 降低了对先验知识积累的依赖. 此外, RL采用如时间差分等策略更新算法, 实现较快的收敛速度, 相较于基于智能优化算法的PID参数寻优具有更快收敛速度, 满足实时控制需求; RL具有的能够在动态环境中持续优化PID参数的功能, 减少了对初始参数选择的依赖. 因此, RL在应对复杂性和不确定性、自适应性和实时性等方面相较于已有方法存在优势[34], 是PID无模型整定研究热点之一. 目前, RL主要分为Actor-only、Critic-only和Actor-critic算法三类[35]. 其中, Actor-only算法通过参数化策略近似估计Actor参数的性能梯度, 但可能存在方差较大、在积累及巩固旧信息方面效率较低等问题[36]; Critic-only算法依赖于值函数近似, 旨在学习贝尔曼方程的近似解以制定近似最优策略, 但在生成最优策略的可靠性等方面存在限制[36]; Actor-critic算法结合前两者的优点, Critic 先近似学习价值函数再更新Actor的参数, 通过低方差性能反馈促进快速有效学习[35] 和保证更好的收敛特性[37]. 面向工业过程的基于Actor-critic算法的自适应PID研究包括: 杜胜利等[38]采用基于深度神经网络拟合Actor-critic网络(Actor-critic network, ACN)进行溶解氧浓度控制, 面向基准仿真平台的实验结果表明其具有快速、精准、良好的自适应能力; Li等[39]采用基于反向传播神经网络(Backpropagation neural network, BPNN)的ACN进行扩散焊炉的控制, 基于真实数据辨识的扩散焊炉模型的实验结果表明在实时性和鲁棒性方面优于传统PID; Sedighizadeh等[40]采用基于RBFNN拟合的ACN进行并网风能转换系统的非线性控制, 在实验室搭建平台上的实验结果表明了有效性. 综上, 基于ACN的自适应PID可作为工业过程控制器. 目前, 将RL应用于MSWI过程的研究还未见报道.
3)本文研究动机. 考虑到MSWI过程的不确定性和复杂性, 面向FT控制的基于ACN的自适应PID还需要具备可解释性和鲁棒性. IT2FNN通过II型模糊集和区间模糊隶属度能够表征更深层次的不确定性, 相较于采用确定隶属度的FNN更具优势, 作为控制器已在MSWI过程[20]、污水处理过程[41-42]以及电力系统[43]等领域表现出较好的性能; 但其固有结构使其在设计过程中仅能采用单一模糊系统, 限制了其适应能力[44]. 针对该问题, Han等[45]设计了采用IT2FNN作为模糊子系统的II型模糊宽度学习系统(Type-2 fuzzy broad learning system, T2FBLS), 具有更快的学习能力和更好的泛化能力. Han等[46]设计了基于IT2FBLS 的溶解氧浓度控制器, 实验结果表明其有效性. 因此, 结合IT2FNN 和宽度学习系统(Broad learning system, BLS)优势的区间II型模糊BLS (Interval T2BLS, IT2FBLS)在处理具有复杂不确定性的问题时展现出良好的应用潜力. 由前文可知, Actor-critic算法在迭代时需更新多个网络, 面向控制应用而言其计算资源消耗较大. 文献[47]指出, ACN的输入层至隐含层参数在初始随机化后可保持不变, 在后续迭代训练中仅需更新输出权重. 文献[48-49]将RL-PID中的输入层和隐含层合并, 在输出层对Actor 网络(Actor network, AN)和Critic网络(Critic network, CN)计算动作和值函数. 文献[50]通过具有共享隐含层的三层前馈NN构建了ACN. 显然, 上述方法减少了对存储空间的需求和避免了隐含单元输出的重复计算, 提升了学习效率. 考虑到IT2FBLS结构的复杂性, 采用多个IT2FBLS拟合ACN将会增加计算负担, 进而影响控制系统的实时性. 针对上述研究现状, 本文提出基于共享层机制IT2FBLS拟合ACN的PID控制策略(IT2FBLS-ACN-PID), 具体为: 首先, 建立具有共享层机制的三输入四输出IT2FBLS拟合ACN (IT2FBLS-ACN); 其次, 结合IT2FBLS-ACN和PID, 通过AN获得PID参数的自适应策略, 并利用CN对当前策略进行评价; 最后, 采用梯度下降法调整ACN参数以实现在线学习. 通过MSWI过程的实际运行数据仿真, 验证了所提方法的有效性. 本文的创新点体现在: 提出共享机制IT2FBLS以减少IT2FNN层和增强层的重复计算, 进而提高学习效率; 采用IT2FBLS拟合ACN, 以提高控制系统处理不确定性的能力; 通过IT2FBLS-ACN-PID进行MSWI过程FT控制, 提升系统自适应能力和改善控制性能.
图 1 MSWI工艺流程图
图 2 基于IT2FBLS强化学习PID的控制策略图
图 3 共享机制IT2FBLS结构图
MSWI过程进料组分不确定性波动导致存在热值不稳定、燃烧反应机理与热力学特性模糊不清且时变、温度大跨度分布且宽范围波动等问题, 使得运行领域专家需要凭借经验进行高频率的干预控制等, 传统PID参数自适应调整方法在控制精度、自学习能力和动态自学习方面均存在着局限性. 对此, 本文提出基于共享机制IT2FBLS的Actor-criticRL自适应PID控制方法, 主要贡献如下: 设计基于强化学习的面向MSWI过程炉膛温度的PID自适应控制策略, 采用IT2FBLS拟合AN和CN以应对不确定性; 设计具有共享层机制的IT2FBLS以减少计算消耗、确保紧凑网络结构和提高时效性; 利用李雅普诺夫方法证明共享机制IT2FBLS的Actor-critic算法的收敛性以及控制过程的稳定性, 确保了理论基础. 通过现场运行数据的仿真实验实现了PID参数的在线整定和炉膛温度恒定和变设定值情境下的快速稳定跟踪, 验证了其能够提高系统的控制性能和自适应能力, 证明了所提方法的有效性. 未来的研究方向包括: 1) 在控制系统中设计额外的未建模动态补偿机制, 使得系统达到渐进稳定; 2) 对深度强化学习控制策略展开研究, 实现更高精度和更宽范围的温度控制; 3) 将所提算法在MSWI过程半实物验证平台测试后在现场进行测试, 以促进算法落地.
作者简介
田昊
北京工业大学信息科学技术学院硕士研究生. 主要研究方向为城市固废焚烧过程的机器学习与智能控制. E-mail: tianh@emails.bjut.edu.cn
汤健
北京工业大学信息科学技术学院教授. 主要研究方向为小样本数据建模, 城市固废处理过程智能控制. 本文通信作者. E-mail: freeflytang@bjut.edu.cn
夏恒
北京工业大学信息科学技术学院博士研究生. 主要研究方向为城市固废焚烧过程二噁英排放预测. E-mail: xiaheng@emails.bjut.edu.cn
王天峥
北京工业大学信息科学技术学院博士研究生. 主要研究方向为城市固废焚烧过程数字孪生与运行优化系统. E-mail: WangTZ@emails.bjut.edu.cn
余文
墨西哥国立理工大学高级研究中心教授. 主要研究方向为复杂工业过程建模与控制, 机器学习. E-mail: yuw@ctrl.cinvestav.mx
乔俊飞
北京工业大学信息科学技术学院教授. 主要研究方向为污水处理过程智能控制, 神经网络结构设计与优化. E-mail: junfeiq@bjut.edu.cn
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-8-29 03:55
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社