IEEEJAS的个人博客分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

北科大班晓娟教授团队:采用强化学习方法实现工业浓密机的底流浓度控制

已有 295 次阅读 2021-7-22 16:05 |系统分类:博客资讯

在现代复杂过程工业生产中,对控制性能指标进行优化是不同控制算法、控制系统的首要任务。在采矿领域复杂过程工业场景下, 浓密机是一种被广泛应用的大型沉降工具,它通过重力沉降作用可以将低浓度的固液混合物进行浓缩形成高浓度的混合物,起到减水、浓缩的作用。


由于浓密机运行过程具有非线性、多变量、高时滞等特点,操作员难以维持底流浓度持续稳定,浓度存在偏差的底流会导致产品质量退化以及增加工业生产成本。在工业领域中对于浓密机的底流浓度的控制是一个巨大的挑战。


袁兆麟, 何润姿, 姚超, 李佳, 班晓娟, 李潇睿. 基于强化学习的浓密机底流浓度在线控制算法. 自动化学报, 2021, 47(7): 1558−1571

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190348?viewType=HTML


图1.png

浓密机示意图


在此,北京科技大学班晓娟教授团队探索了强化学习方法在工业领域中的应用,构建了工业浓密机物理模型,验证了方法的有效性,主要贡献总结如下:


1) 提出了一种基于ADP 算法架构的启发式评价网络值迭代算法 (Heuristic critic network valueiteration, HCNVI)。该算法仅通过评价网络、模型网络和梯度优化算法即可求解系统最优控制输入。


2) 提出了一种适用于评价网络训练的短期经验回放技术。训练评价网络时, 将短期内系统运行轨迹数据共同用于模型训练, 该方法可以有效增强评价网络收敛速度。


3) 通过浓密机仿真实验验证了HCNVI 算法的有效性。实验结果表明本文提出方法在时间消耗、控制精度上均优于其他对比方法。


图2.png

HCNVI算法结构示意图


在控制动作决策算法设计部分,本文提出了一种不需要引入动作网络,直接利用迭代梯度下降算法即可求解系统最优控制输入的高效优化算法,算法流程如下所示:


迭代梯度下降控制算法流程

图3.png


为了验证利用迭代梯度下降算法计算控制动作的有效性,对计算迭代过程做可视化,图中颜色深浅代表控制策略的长期性能评价,可以发现该方法能够精确地找到符合最优控制的极值点。


图4.png

迭代梯度下降过程可视化


为了更直观地展示增加短期经验回放对评价网络学习过程的影响, 本文对评价网络的输出进行了可视化,说明短期经验回放技术可以提高网络学习效率。


控制实验环节,本文采用浓密机仿真模型,比较了浓密机进料在高斯噪声波动下,不同方法的对于浓密机底流浓度的控制结果。从底流浓度变化和效用值变化可以看出本文的HCNVI算法在控制效果和计算时间消耗都优于其他算法。


图5.png

底流浓度变化


图6.png

效用函数值变化


图7.png

HCNVI算法与HDP算法在时间消耗上的对比


本文提出的短期经验回放技术可以很好地增强评价网络训练的稳定性,在其他自适应动态规划算法中也具有较好通用性。根据仿真实验验证结果可以发现,相比其他在线ADP 算法,由于HCNVI算法模型结构简单,且具有较高的学习敏捷性,因此在浓密机仿真系统控制问题中,HCNVI 算法消耗了更少的训练时间但获得了更优的控制效果。 


HCNVI算法也存在自身的局限性,其去掉动作网络的可行性是建立浓密机具有运行缓慢、稳定的特性基础之上的。但是当被控系统相对复杂且不再具有此特性时,如系统状态量变化过程并不连续或系统运行速度较快,HCNVI 依靠迭代算法求解的控制量难以保持最优性, 控制性能极有可能产生退化。如何使HCNVI 算法以及其他无动作网络类自适应动态规划类算法适用于此类复杂被控系统,在优化训练时间消耗的同时保证其控制性能与收敛速度, 将是未来非常有意义的研究方向。


作者简介


袁兆麟

北京科技大学计算机与通信工程学院博士研究生. 2017 年获得北京科技大学计算机科学与技术系学士学位. 主要研究方向为自适应动态规划和强化学习.

E-mail: b20170324@xs.ustb.edu.cn


何润姿

北京科技大学计算机与通信工程学院硕士研究生. 2017 年获得北京信息科技大学计算机科学与技术系学士学位. 主要研究方向为流体仿真和强化学习.

E-mail: hrz.claire@gmail.com


姚 超

北京科技大学的助理教授. 2009 年获得北京交通大学计算机科学学士学位, 2016 年获得北京交通大学信息科学研究所博士学位. 2014 年至 2015 年, 他在瑞士洛桑联邦理工学 院 担 任 访 问 博 士 . 2 0 1 6 年 至2018 年, 他在北京邮电大学传感技术与商业研究所担任博士后. 主要研究方向为图像和视频处理,计算机视觉.

E-mail: yaochao@ustb.edu.cn


李 佳

北京科技大学计算机与通信工程学院硕士研究生, 主要研究方向为自适应动态规划, 自适应控制, 强化学习.

E-mail: lijia1117@foxmail.com


班晓娟

北京科技大学教授, 中国人工智能学会常务理事. 主要研究方向为人工智能,自然人机交互,三维可视化技术.

E-mail: banxj@ustb.edu.cn




http://wap.sciencenet.cn/blog-3291369-1296532.html

上一篇:鱼类群体运动的元胞自动机模型中的最小势能原理
下一篇:自动化学报(英文版)首届青年编委招募

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2021-9-18 12:02

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部