Kara0807的个人博客分享 http://blog.sciencenet.cn/u/Kara0807

博文

[转载]基于DQN的列车节能驾驶控制方法

已有 270 次阅读 2021-6-21 17:54 |个人分类:智能科学与技术学报|系统分类:论文交流|文章来源:转载



微信截图_20210621174924.png

基于DQN的列车节能驾驶控制方法



宿帅1, 朱擎阳1, 魏庆来2, 唐涛1, 阴佳腾1

1 北京交通大学轨道交通控制与安全国家重点实验室,北京 100044

2 中国科学院自动化研究所复杂系统管理与控制国家重点实验室,北京 100190

 

【摘  要】随着轨道交通网络规模的扩大和列车运营间隔的缩短,列车牵引能耗在快速增加。因此,通过优化列车的驾驶策略降低牵引能耗,对于轨道交通系统的节能减排具有重大意义。针对列车的驾驶策略优化问题,提出一种基于深度 Q 网络(DQN)的列车节能驾驶控制方法。首先介绍了传统的列车节能驾驶问题并构造其反问题,即通过分配最少的能耗达到规定运行时分。进一步将该问题转化为有限马尔可夫决策过程(MDP),通过设计状态动作值函数、定义动作策略选取方法等,构建基于 DQN 方法的列车节能驾驶控制方法。通过实际驾驶数据对DQN 进行训练,得到最优的状态动作值函数,并通过该值函数确定最优的能耗分配方案,从而得到最优驾驶策略。最后,以北京地铁亦庄线的实际运营数据设计了仿真算例,对方法的有效性进行验证,并对方法参数进行了敏感度分析。提出的方法可充分利用列车的驾驶数据提升驾驶策略,降低列车牵引能耗,对未来我国智慧城轨的发展具有一定的借鉴意义。

【关键词】列车节能驾驶 ; 驾驶策略 ; 深度Q网络

【引用格式】

宿帅, 朱擎阳, 魏庆来,  等. 基于DQN的列车节能驾驶控制方法[J]. 智能科学与技术学报, 2020, 2(4): 372-384.

SU S, ZHU Q Y, WEI Q L, et al. A DQN-based approach for energy-efficient train driving control[J]. CHINESE JOURNAL OF INTELLIGENT SCIENCE AND TECHNOLOGY, 2020, 2(4): 372-384.


1.引言


目前,轨道交通以其运量大、准时性高、运营间隔小的优势,成为城市居民日常出行的重要方式,也成为公共交通体系中不可或缺的重要力量。近年来,轨道交通系统的规模迅速扩大,运营间隔也在不断缩短。以北京地铁系统为例,2002年北京地铁仅有两条线路,31个车站;截至2019年年底,北京地铁已经扩展到23条线路,总计405个车站,运营总里程达699.3 km,总规模比2002年扩大了10倍以上;而北京地铁的运营间隔也已经缩短至高峰时段2 min、平峰时段5 min。但随着轨道交通系统运营规模的扩大和运营间隔的缩短,其运营能耗不断增加。例如,北京地铁 2018 年的运营能耗高达19亿kWh,年均增长近9.2%,已经成为北京工业用电的消耗大户。据统计,在地铁系统的运营过程中,列车的牵引能耗占据运营总能耗的50%以上。例如,北京地铁 10 号线的年均运营总能耗为8 500万kWh左右,其中4 600万kWh的电能被用于列车的牵引。由此可见,减少列车牵引能耗对于降低轨道交通系统的运营能耗、减少运营成本以及建设绿色环保的城市公共交通体系有重大意义。

降低列车牵引能耗的方式主要有两种:从单车控制的角度,通过优化列车的驾驶策略,在保证准时性的同时降低牵引能耗;从行车组织的角度,通过优化列车运营时刻表,提升再生制动的利用效率。本文主要针对前者展开研究,即设计列车的节能驾驶控制方法,从而优化列车驾驶策略,降低牵引能耗。

现有对列车节能驾驶控制的研究主要依赖于最优驾驶控制模型,在控制模型的基础上提炼目标函数和约束条件,再使用数值解法或搜索算法求解最优驾驶策略。但在实际运营场景中,列车的控制模型很难建立甚至无法建立。例如,针对曲线、分相区、咽喉区等特殊路段的建模十分复杂,而对于隧道阻力等复杂因素则无法准确进行建模。由此可见,对于拥有这些特殊路段的区间来说,传统的基于模型的优化方法无法针对这类问题进行准确求解。此外,现有对列车节能驾驶控制的研究主要从运行时分的角度入手,先求解满足运行时分的驾驶策略,再从中寻找能耗最优的策略,加大了求解的复杂性。实际上,对于给定的驾驶策略而言,其运行时分和牵引能耗是一一对应的,因此可以从牵引能耗的角度出发直接寻找最节能的驾驶策略,由此简化求解过程。

基于以上分析,本文的创新点概括如下。第一,本文直接从牵引能耗的角度设计列车节能驾驶控制方法。本文构造了列车节能驾驶问题的反问题,即如何通过分配最少的能耗来获得满足规定运行时分的驾驶策略,并提出基于能耗分配的列车节能驾驶控制方法,直接从牵引能耗的角度求解相应的驾驶策略,简化了问题的求解过程。第二,上述反问题符合有限马尔可夫决策过程(Markov decision process,MDP)的定义,可以使用强化学习方法进行求解。本文使用深度Q网络(deep Q-network, DQN)求解列车的能耗分配策略,进而得到最优驾驶策略。DQN结合了强化学习与深度学习的优势,既突出了决策者与环境的交互,又能够处理和利用大数据,并从中获取数据的本质特征。DQN 可以直接从列车的实际驾驶数据或虚拟仿真得到的驾驶数据中学习驾驶经验,在不依赖于最优驾驶模型的情况下得到最优驾驶策略,提高求解的准确性。


2. 相关研究

列车节能驾驶控制方法的优化问题主要由两个子问题构成:一是确定列车的节能驾驶工况,二是确定在规定区间内这些工况间的转换点。因此,确定列车最优控制方法的过程就是确定列车最优驾驶工况序列的过程。针对此问题,国内外很多学者展开了大量研究,根据其研究方法可以分为以下3类。


第一类方法是基于列车最优控制模型的数值解法。Ichikawa K将列车的基本运行阻力线性化,并忽略线路的坡度阻力和限速,提出了列车的基本节能控制模型。他使用庞特里亚金极大值原理(Pontryagin maximum principle,PMP)对模型进行求解,得出列车的节能驾驶工况由最大加速(maximum acceleration,MA)、巡航(cruising, CR)、惰行(coasting,C)和最大制动(maximum braking,MB)组成的结论。Howlett P在平坦线路和固定限速的条件下,使用 PMP 证明了列车的节能驾驶策略由MA、CR、C和MB这4种工况组成。在此基础上,Howlett P考虑了在不同坡度、不同限速的线路条件下,列车采用离散控制档位的节能驾驶问题,给出了使列车牵引能耗最小的关键方程,并以此为依据计算不同驾驶工况的转换点。Liu R R等人利用PMP确定了列车的节能驾驶工况,同时基于汉密尔顿函数的连续性提出了一种计算工况转换点的数值计算方法。实验表明,该方法既可以优化单站间的列车节能驾驶控制策略,也可以优化多站间的运行时分分配,进而优化时刻表。Khmelnitsky E使用PMP计算出连续坡度和限速的线路条件下列车最优的驾驶工况,并设计了一种迭代算法计算最优工况转换点。同时,他发现列车的运行时分越短,其巡航速度越大,并从理论上证明了巡航速度与节能驾驶策略之间的关系。曲健伟等人对基于 PMP 的驾驶策略求解方法进行了简化,引入连接函数和连接误差对C工况的连接效果进行表征,并基于最优工况切换条件,提出了给定目标牵引恒速条件下求解最优C连接段的数值算法。Aradi S 等人提出了一种预测优化模型,即在考虑当前位置的工况时,引入对未来一定距离内驾驶策略的预测,并使用逐次二次规划方法求解该模型。Wang Y H等人在确定最优驾驶策略的同时考虑了列车的能耗和舒适度,提出了伪谱法和混合整数线性规划方法两种求解列车最优驾驶策略的方法。很多学者在优化单车控制策略的同时还引入了再生制动,进一步降低了能耗。Scheepmaker G M等人在列车的节能控制模型中考虑了再生制动,利用 PMP 计算出节能驾驶工况,并通过高斯伪谱方法求解不同工况的转换点。经过实际线路测试发现,引入再生制动后,列车的巡航速度下降,惰行点后移,高速驾驶时会更早使用制动工况以获得更多的再生能。Albrecht A等人在考虑再生制动的基础上提出适用于连续坡度和限速的线路条件的列车节能控制模型,并指出应该在陡下坡时使用 RB 工况,以此让列车以固定的速度保持巡航的状态。


第二类方法是基于启发式搜索的方法。Morris B等人采用遗传算法求解列车的节能驾驶曲线,该方法的目标函数包含了列车能耗和针对晚点的惩罚因子,同时考虑了列车节能和准时性。仿真结果表明,使用该方法可以节约 32.89%的牵引能耗。Domnguez M等人设计了一种计算机辅助选择最优驾驶策略的方法,他根据列车自动控制(automatic train operation,ATO)系统的控制性能、线路信息、车辆性能等参数构造一系列可行的驾驶策略,并使用帕累托寻优法选择满足规定运行时分且能耗最小、舒适度最优的驾驶策略。这种方法还可以扩展到考虑再生制动的场景中,从而优化列车时刻表。Zhang C Y等人开发了基于数据驱动的列车驾驶(data-driven train operation,DTO)模型,该模型将数据挖掘方法与专家知识结合起来,利用专家知识获得更优的驾驶策略,并设计了启发式停车算法,以保证列车停车精度。Liu X等人在考虑线路信息和调度条件的基础上,以列车牵引能耗和准时性为优化指标,建立了列车优化控制模型,并采用布谷鸟搜索算法对模型进行求解。Cheng R J等人开发了一种基于数据挖掘技术的高速列车自动驾驶系统。该方法首先对采集的高速列车驾驶数据进行分类和筛选,其次使用分类与回归树提取驾驶数据中的专家经验,进而控制列车输出相应的控制工况。仿真实验表明,该方法求得的驾驶策略的能耗降低了7.3%。厉高等人通过分析列车节能最优控制的工况集,将列车运行区间分段,进而使用时间逼近的搜索方法对列车工况转换点的坐标进行求解,然后对不同区段的列车惰行时间进行分配,得到最优控制方法。


随着人工智能技术的不断进步,机器学习的相关算法也被引入列车节能驾驶问题中。Huang Y N等人针对长陡下坡中的重载列车安全驾驶问题,提出了使用神经网络计算列车驾驶曲线的方法。他们使用专家司机的驾驶数据对网络进行训练,并使用训练后的神经网络控制重载列车的循环制动,保证了制动过程的安全性和稳定性。Yin J T等人提出了一种基于强化学习的智能列车驾驶方法,首先定义了列车节能驾驶场景下的状态、动作和奖励,并基于贝尔曼方程和ε-贪婪策略确定不同状态的值函数及其更新方式。该方法可以在线实时获得驾驶策略,比离线优化方式减少了10%的能耗。Zhou R等人使用actor-critic方法在线求解列车的节能驾驶策略。他使用两个神经网络分别输出控制工况和评估各状态下的值函数,并使用深度确定性梯度下降法对两个网络进行参数更新,进而同时得到最优策略和最优值函数。Huang K等人提出了一种基于数据驱动的列车驾驶策略优化模型,基于列车的实际运行数据,使用随机森林回归(random forest regression,RFR)算法离线规划最优驾驶策略,使用支持向量机(support vector machine,SVM)实时调整列车运行速度,并计算牵引能耗。通过案例分析得知,该算法比普通的节能驾驶算法平均可以减少2.84%的能耗。Huang J等人提出了一种BLSTM-DDQN方法进行驾驶策略优化。他使用双向长短期记忆(bidirectional long short term memory,BLSTM)网络,从与时间相关的运行信息中提炼列车的前向和反向运行特征,利用自动编码器提炼列车的性质;利用双重深度Q网络(double deep Q network,DDQN)优化列车的驾驶策略。Zhou K C等人结合数据挖掘技术和强化学习方法,以专家司机的驾驶经验为训练数据,提出了基于深度确定性策略梯度(deep deterministic policy gradient, DDPG)方法的智能列车驾驶(smart train operation based on DDPG,STOD)方法和基于归一化优势函数的智能列车驾驶(smart train operation based on normalized advantage function,STON)方法两种方法,将它们应用于连续状态和动作空间下的多目标列车驾驶优化问题。实验表明,与人工驾驶相比, STOD方法和STON方法可分别节约9.4%和11.7%的能耗。Qi X W等人针对现有的列车能耗管理系统无法适用于变化的线路条件,缺乏自适应性的问题,提出使用深度Q网络学习方法,在列车与环境的交互过程中自主学习最优的能耗管理策略,以降低列车的运营能耗。实验表明,该方法可以节约16.3%的牵引能耗。张淼等人综合考虑线路和列车等约束条件,建立了基于Q学习算法的列车节能优化模型。该模型中,状态为列车的位置和速度,值函数为准时性和能耗的加权叠加。实验结果表明,与传统动态规划方法相比,该方法得到的驾驶策略减少了8.8%的牵引能耗。


3.列车节能驾驶控制模型



3.1 问题描述


在列车节能驾驶问题中,优化目标为最小化指定区间的能耗,因此目标函数如式(1)所示:


图片


其中,uf(x)指列车在位置 x 处输出的相对牵引力,用来衡量牵引力的输出级位;F(v)指在列车运行速度v下输出的最大牵引力;μ(uf, v)指列车在输出的相对牵引力为 uf、运行速度为 v 时从电网吸收电能的传递效率;S指待优化区间的终点位置。

除此之外,在列车运行过程中,还要考虑以下限制条件。首先,列车在起点、终点的速度为0,同时为保证列车在运行过程中不触发紧急制动,列车的速度不能超过线路的限速;其次,列车输出的牵引力或制动力不得超过列车牵引、制动装置所能提供的最大牵引力或制动力;最后,电网传递的电能无法全部转化为列车的机械能,因此电网的传递效率取值必须满足相应的边界约束。这些限制条件如式(2)所示:

图片


其中,v0vT分别表示列车的初速度、末速度,V(x)表示线路在位置x处的限速值,ub表示相对制动力,用来衡量制动力的输出级位,μminμmax 分别表示能量传递效率的上界、下界。

根据PMP,可以将以上目标函数与限制条件转化成一个汉密尔顿函数,该函数与ufub有关:

图片


其中,H表示汉密尔顿函数,F表示列车的牵引力, B 表示列车的制动力,R 表示列车的基本阻力,G表示列车受到的坡度阻力,m表示列车的质量,L1L2表示松弛因子。

依据式(3)中松弛项图片的不同取值,可以得到5种对应的工况,见表1


微信截图_20210623090635.png


综上所述,列车的节能驾驶工况由 MA、C、PB和MB组成。


3.2 模型转化


确定列车节能驾驶控制方法的过程就是确定上述节能驾驶工况序列的过程,即根据节能驾驶工况的组成和线路条件、车辆条件等信息,确定不同工况间的最优转换点。通常来讲,当一组驾驶工况序列被确定后,其能耗和运行时分便可以一一对应起来,如图1所示。

微信截图_20210623090728.png
图1中的曲线表示列车在规定站间的运行时分和最小牵引能耗,所有满足规定运行时分的驾驶策略均排列在帕累托曲线的右侧,如图1中的空心圆圈所示;而在规定运行时分下的最优驾驶策略则位于帕累托曲线上,如图1中的实心圆圈所示。因此,在规定运行时分下的最优驾驶策略可由列车的牵引能耗唯一确定。本节提出一种基于能耗分配的列车节能驾驶控制方法,从牵引能耗的角度直接确定不同工况的转换点,进而确定符合规定运行时分的最优驾驶策略。

首先,根据站间的线路坡度和限速将区间划分为多个区段,使每个区段内的坡度和限速不变。接着,生成一个仅由MA-C-MB组成的初始策略,该策略的能耗很小但运行时分很长。为了缩短列车的运行时分,需要向线路的不同区间分多次分配若干能量单元,以增加牵引能耗为代价缩短运行时分,直至符合规定运行时分的要求。根据能耗分配确定驾驶策略的原则,具体如下:

· 在某个区段内,若分配到该区段的能量尚未用完且列车并未超速,则列车采取MA工况;

· 在某个区段内,若分配到该区段的能量已经用完,则列车采取C工况;

· 在某个区段内,若分配到该区段的能量尚未用完,但列车的速度已经接近限速值,则列车应采取MA-C组合工况,以避免超速;

· 仅在陡下坡处使用PB工况,以避免列车超速;

· 依次确定不同区段内的驾驶策略并连接起来,即可得到整个站间的驾驶策略。这里需要注意,前一个区段的末速度是后一个区段的初速度。

由以上分析可知,每分配一个能量单元后,列车的驾驶策略会发生变化,相应的运行时分和牵引能耗也会发生变化,可表示为:


图片


其中,Ei表示分配第i个能量单元后所得驾驶策略的牵引能耗;ti表示分配第i个能量单元后所得驾驶策略的运行时分;ΔE表示能量单元的大小,Δt表示分配能量后运行时分的减少量。

在每一次能耗分配时,能量单元可以被分配到任意一个区段内。由式(4)可知,由于能量单元ΔE是相同的,每次分配后带来的牵引能耗增量也是相同的,但运行时分的减少量Δti是不同的。

不同能耗分配方案下得到的驾驶策略如图2 所示,图中的两种驾驶策略是在初始策略的基础上向第3个区段或第7个区段分配一个能量单元后得到的。这两种策略的牵引能耗相同,但分配至第3个区段得到的驾驶策略运行时分更短。因此,在每一轮分配能量单元时,应尽可能将能量单元分配到运行时分减少量最大的区段,从而用最少的能量单元达到规定的运行时分要求,得到最节能的驾驶策略。

微信截图_20210623090830.png
基于以上分析可知,在每次选择向哪个区段分配能耗时,只需考虑当前各个区段的能耗分配状态,而不需要考虑之前所有的状态,即

图片


其中,π(a|s)表示决策者在状态s下决定采取动作a的概率,S(t)、A(t)分别表示决策者在t时刻各个区段的能量单元分配状态和决定分配能量单元的区段。该决策过程具备马尔可夫性,因此该方法符合有限 MDP 的定义,可以应用强化学习方法进行求解。在本文研究的 MDP 中,决策者需要通过与环境的交互学习到一个最优的能耗分配策略,即根据当前各个区段已经分配的能量单元数量决定向哪个区段继续分配能量,最终得到最优的各区段能量单元分配数,并以此为依据确定节能驾驶控制方法。


4.基于DQN的列车节能驾驶控制方法


强化学习是一种针对目标导向任务的机器学习方法,它不会告诉决策者应该如何行动,而是通过与环境的交互引导决策者学习到正确的策略[35]。在强化学习方法中,决策者根据当前所处环境的状态s选择并执行动作a,该动作对环境产生影响,使得当前环境的状态变为s′,并反馈奖励r给决策者,决策者再根据新的状态继续与环境进行交互。在列车节能驾驶问题中,状态指当前各个区段内已分配的能量单元数:


图片


其中,Dk表示第k个区段已经分配的能量单元数, N表示所有可被分配能量的区段数。

奖励被定义为分配能量前后列车运行时分的减少量:

 

图片


其中,下标i表示第i次能耗分配。

动作定义为向某个特定区段分配能量,因此动作集空间为A∈[1,N]。

在交互过程中,决策者的目标是使长期奖励总和最大化。通常使用值函数来评估某个状态或状态-动作对带来的长期奖励总和,值函数常用贝尔曼方程进行定义:


图片


其中,图片表示在状态s下采取动作a后,得到奖励r并转移到新状态s′的概率,r表示奖励, q(s, a)表示当前待评估的状态-动作对的值函数,a′表示在s′下可执行的动作。

在强化学习方法中,值函数通常用值函数表的形式进行存储,将每个状态-动作对与其值函数一一对应。但在节能驾驶问题中,其状态空间大小为图片,其中N表示可分配能量单元的区段数,G表示分配的能量单元总数。随着规定运行时分的缩短和线路长度的增加,分配的能量单元总数和线路的区段数会增加,其状态空间的规模会呈指数增加,由此带来维数灾难的问题,严重影响值函数存储、更新和读取的速度。随着深度学习方法获得巨大的成功,产生了深度学习与强化学习结合的深度强化学习(deep reinforcement learning,DRL),其将感知、学习与决策融为一体,实现了从高维状态到动作决策的“端到端”感知与决策。DQN方法是DRL方法的典型代表,它将深度神经网络与Q学习方法结合起来,能适应更大的状态空间,因此适用于列车节能驾驶问题的求解。

DQN是一种直接从环境中获取高维状态输入,并输出相应动作值函数的网络。将 DQN 应用于强化学习问题时的基本架构如图3所示。

微信截图_20210623090954.png

在深度学习问题中,为保证训练结果的准确性,通常要求训练数据满足数据间彼此独立的要求,但在强化学习中,数据序列之间有很强的关联性,这会导致神经网络的训练结果出现较大的偏差,打破Q学习方法中的无条件收敛性。为解决此问题,在 DQN 中引入经验回放机制。决策者不断地与环境进行交互,得到一系列状态转移四元组(s, a, r, s′)并存储到经验池中,每次更新权重时,从经验池内随机批量采样一部分数据作为网络的训练样本。经验回放的目的在于打破数据间的关联性,求得准确的梯度估计值。

另外,在传统的Q学习或DQN方法中,通常仅将一个值函数表或值函数网络用于选择和评估动作,但单一的值函数表或值函数网络通常会导致决策者选择过估计的动作,导致对状态动作值函数的估计值过高。因此,在传统方法的基础上额外引入一个目标网络,专门用于评估状态-动作对的值。Q网络每进行若干轮权重更新后,会与目标网络进行一次权值同步,其余时间则保持目标网络的权重不变,从而减小动作值函数的评估误差。

DQN方法中更新网络权重的计算式为:

图片


其中,下标i表示权重更新的次数,下标t表示当前状态、动作的时序,θ表示Q网络的权重,θ-表示目标网络的权重,α表示学习率,γ表示衰减因子,二者的取值范围均为(0,1]。

为了在特定状态下选到最优动作,决策者会采取特定状态下值函数最大的动作来执行,即采取贪婪策略,得到最优的动作策略:

图片

但是,仅采取贪婪策略有可能会漏掉可能存在的更优动作,因此在学习的过程中必须对环境进行探索,这也是唯一能发现更好的策略的方法。本文采用的探索方法为ε-贪婪策略,即以ε的概率随机选取任意一个可选动作,以(1-ε)的概率采取贪婪策略:


图片


其中,图片为状态s下可选取的动作个数,A*为状态s下的最优动作。

综上所述,将 DQN 方法应用于列车节能驾驶问题时的算法如算法1所示。

算法 1 将 DQN 应用于列车节能驾驶问题的求解流程

步骤1:初始化

(1)随机初始化Q网络权重θ和目标网络权重θ-,且θ=θ-

(2)初始化学习率α、衰减因子γ、探索参数ε;

(3)初始化经验池D和采样规模B;

(4)初始化线路数据、车辆数据和规定运行时分T;

(5)指定训练步数M、同步次数C;

步骤2:开始训练

令更新次数count=0;

当count<M 时,循环:

得到初始驾驶策略,其运行时分为t0
令列车当前运行时分t=t0
t>T 时,循环:
根据当前能耗分配状态s,采用ε-贪婪策略选取动作a并执行,得到新状态s;根据s更新驾驶策略,其运行时分为tnew,得到奖励r=t-tnew

将四元组图片存储进经验池D中t=tnew

如果经验池D存储的经验数量大于或等于B,则:

从经验池中抽取B个四元组;

根据式(9)更新θ;

count=count+1;

每经过C步,则:

θ=θ-

步骤3:确定驾驶策略

得到初始驾驶策略,其运行时分为t0

令列车当前运行时分t=t0

当t>T 时,循环:

根据当前能耗分配状态s,采用ε-贪婪策略选取动作a并执行,得到新状态s

根据s更新驾驶策略,其运行时分为tnew,得到奖励r=t-tnew

最终输出的驾驶策略即所求。

5.案例分析

为验证算法的有效性,并探究超参数对算法性能的影响,本节以北京地铁亦庄线小红门到肖村的实际运行数据为基础设计仿真案例,主要线路数据见表2。

图片


5.1 方法有效性验证


本节验证在不同规定运行时分下 DQN 方法的有效性。将站间线路按照坡度和限速分为9个区段,因此网络的输入层和输出层均有9个单元。首先将网络设置为一个隐藏层,在隐藏层内设置5个神经元,令α=0.1,γ=0.9,并分析不同规定运行时分下DQN方法的有效性。对比实验选取参考文献提到的基于能耗分配的数值计算方法(以下简称数值法),该方法已经被证明可以求得最优解。实验结果见表3。

图片


由表3数据可知,DQN方法得到了与数值法相同的结果,证明 DQN 方法可以得到最节能的驾驶曲线。

由DQN方法得到的速度-距离曲线如图4所示。

微信截图_20210623091045.png

由图4可发现,所有能量单元均分配在区间的起始部分,因此在区间的起始阶段,列车一直采取MA工况,之后便进行长距离的惰行,直到进站制动,且规定的运行时分越短,MA工况到C工况的转换点处对应的速度值越高。这种驾驶策略加长了惰行距离,减少了不必要的制动,因此可充分利用由MA工况转化成的机械能,让这部分机械能尽可能多地被用来让列车克服运行阻力向前运行,从而在保证准时性的同时节约牵引能耗。由此可见,在列车运行过程中通过延长惰行距离,减少不必要的制动工况,可以达到节能驾驶的目的。

使用 DQN 方法进行训练时的收敛过程如图5所示。

微信截图_20210623091055.png

为了跟踪训练时的状态动作值函数,在训练开始前首先采取随机动作执行一个片段,得到一个状态集。每经过一步训练后,将状态集中每个状态输入DQN,得到每个状态的最大动作值并取均值。

由图5 可知,DQN 方法的训练过程是不稳定的,在训练初期会有较大幅度的波动。但随着训练步数的增加,列车的运行时分逐渐接近规定运行时分,最终在最优运行时分附近小幅度波动;列车消耗的牵引能耗逐渐降低,最终在最优的牵引能耗处小幅度波动;状态动作值函数在训练初期变化较快,最后会收敛到一个稳定值。

以上实验仅考虑了单站间的优化问题,在下面的实验中考虑多站间的优化问题。本实验选取亦庄线宋家庄至肖村、肖村至小红门、小红门至旧宫3个站间。根据既有的列车时刻表可知,这3个站间的规定运行时分分别为190 s、108 s、157 s。使用数值法和DQN方法分别对上述3个站间的驾驶策略进行优化,其结果见表4。

图片


从表4可以发现,数值法根据每个站间的规定运行时分确定最优能耗分配策略,3 个站间的实际运行时分分别为185.46 s,105.82 s和154.51 s,均符合各个站间的规定运行时分,3 个站间的最优牵引能耗分别为11.46 kWh,7.81 kWh,12.85 kWh;而使用DQN方法时,可以将3个站间视为一个整体,依据 3 个站间的总规定运行时分确定最优的能耗分配策略,进而得到列车的节能控制方法。由表4 的数据可知,虽然在肖村—小红门站间和小红门—旧宫站间的实际运行时分分别为111.16 s和172.77 s,并不符合这两个站间的规定运行时分,但3个站间的总运行时分为450.47 s,符合规定的总运行时分455 s,且比数值法的实际运行时分445.79 s更接近规定运行时分,提高了准时性。同时,使用DQN方法得到的节能控制方法在 3 个站间所需的总牵引能耗为 30.37 kWh,与数值法的总牵引能耗32.12 kWh相比,节约了5.4%。因此,DQN方法不仅可以节约牵引能耗,还可以重新分配各个站间的运行时分,提高准时性。

图6 显示了使用 DQN 方法得到的从宋家庄到旧宫之间3个站间的最优驾驶策略。从图6可以发现,列车在每一个站间内的驾驶策略与图4所示的单站间驾驶策略相似,均在起始阶段采取MA 工况,经过长距离的惰行后进入制动状态。同时还可以发现,宋家庄—肖村站间执行MA工况的距离比肖村—小红门和小红门—旧宫站间执行MA工况的距离更长,这表明在多站间场景下,列车依然会在靠近起点的站间尽可能快速通过,为后续的列车运行作业节约时间,在提高准时性的同时,也可以在后半程降低运行速度,延长运行时分,降低牵引能耗,从而弥补列车在起始站间多消耗的能量。

微信截图_20210623091107.png

5.2 超参数敏感性分析


本节探究算法关键超参数对 DQN 训练速度的影响。在强化学习中,影响训练速度的两个关键超参数为学习率α和衰减因子γ,前者决定了每步更新时当前更新值向目标值靠近的步长,后者决定了对未来长期奖励的重视程度。同时,神经网络的结构也会影响训练的速度。根据深度学习相关理论[51],神经网络的深度对神经网络性能有更显著的影响,因此针对神经网络结构的讨论将聚焦于网络深度对训练速度的影响。

图7 显示了给定衰减因子时,不同学习率对DQN训练速度的影响。在本实验中,衰减因子取值为γ 0.9= ,神经网络中每层神经元的个数均为5个。由图7可知,当学习率较小时,DQN的训练速度较慢,当学习率α[0.3,0.5]∈ 时,可以实现较快的训练速度。同时,由图7还可发现,在学习率相同的情况下,3 层神经网络的训练速度通常比单层神经网络更快,这证明增加神经网络的深度可以提高DQN的训练速度,提高算法性能。

微信截图_20210623091116.png


图8 显示了给定学习率时,不同衰减因子对DQN训练速度的影响。在本实验中,学习率设置为α=0.1,神经网络中每层神经元个数设置为5。由图8可知,当使用单层神经网络时,不同衰减率对训练速度的影响不显著;当增加网络深度(本实验为3层)时,随着衰减因子的增大,训练速度显著加快。其原因在于,在能量单元分配的过程中,每分配一个能量单元,即可得到一个新的驾驶策略,该驾驶策略将会成为后续继续进行能量单元分配的基础,因此决策者不仅需要关注当前驾驶策略下分配区间的选择,还要考虑本次分配能量单元后对后续决策的影响。而衰减因子衡量了决策者对未来长期奖励的关注程度,当衰减因子取值增大时,可以让决策者更加关注长期的奖励总和,达到一个片段内奖励总和的最大化,从而更快地学到每个状态下的最优动作。根据实际实验可知,衰减因子不能取值太小,其取值范围最好为[0.3,1)。

微信截图_20210623091125.png


从图8还可以发现,当γ>0.2后,使用3层神经网络的训练速度快于单层网络的训练速度,表明加深网络深度可以很大程度地加速训练过程,提高收敛速度。

6.结束语

本文提出了一种基于 DQN 的列车节能驾驶控制方法。首先,本文构造了列车节能驾驶问题的反问题,即通过分配最少的能耗得到满足规定运行时分的驾驶策略,并使用强化学习方法求解此问题。针对此问题状态空间较大的特点,提出使用 DQN方法来近似表示各个状态-动作对的值函数。使用实际驾驶数据对 DQN 进行训练,使其得到最优值函数,并依据最优值函数得到最优的能耗分配方案,进而得到最优驾驶策略。仿真实验表明,该方法获得的驾驶策略能够得到满足规定运行时分的节能驾驶策略,并且使用 DQN 方法得到的节能驾驶策略有很长的惰行距离,而很少采取制动工况,因而避免了频繁地加速-制动所带来的牵引能耗损失,达到了节能驾驶的目的。

目前的工作依旧存在一些缺陷和不足。首先,能量单元的大小是离散值,导致驾驶策略的求解结果不够精确;其次,本文仅研究了单车的节能优化方法,没有考虑多车运行时的多角色博弈过程,无法达到协同优化的目的;最后,由于深度学习存在难以应对非结构化数据的缺点,本文所提出的方法仍然无法充分利用列车运行过程中产生的大量非结构化数据,降低了数据的利用率。这些问题将在未来的工作中进行研究和解决。


作者简介 About authors

宿帅(1987-),男,博士,北京交通大学轨道交通控制与安全国家重点实验室副教授,主要研究方向为列车节能控制、列车智能调度、强化学习算法等。

朱擎阳(1996-),男,北京交通大学轨道交通控制与安全国家重点实验室硕士生,主要研究方向为列车节能驾驶控制、强化学习算法等。 

魏庆来(1979-),男,博士,中国科学院自动化研究所研究员,复杂系统管理与控制国家重点实验室副主任,中国科学院大学岗位教授,青岛智能产业技术研究院智能技术创新中心主任,主要研究方向为自学习控制、平行控制自适应动态规划、智能控制、最优控制及其工业应用。 

唐涛(1963-),男,博士,北京交通大学轨道交通控制与安全国家重点实验室主任,电子信息工程学院院长、教授,主要研究方向为高速铁路控制、智能控制理论、智能交通理论等。

阴佳腾(1992-),男,博士,北京交通大学轨道交通控制与安全国家重点实验室副教授,主要研究方向为列车智能控制与调度、机器学习、列车节能驾驶控制等。 



微信截图_20210621175632.png



https://wap.sciencenet.cn/blog-951291-1292115.html

上一篇:科技抗疫——无人车新战场
下一篇:[转载]基于深度可分离卷积网络的皮肤镜图像病灶分割方法

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2021-9-25 19:24

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部