摘要
为提升整车经济性和耐久性,提出了一种基于强化学习和路况信息的燃料电池汽车能量管理策略。首先,根据关键部件参数搭建了动力系统模型,并根据城市道路工况特征在VISSIM软件中搭建交通模型并提取了车辆行驶数据及路况数据。其次,将路况数据作为输入,利用长短期记忆神经网络对车速进行预测。最后,基于强化学习算法,将预测车速、加速度以及动力电池荷电状态作为输入,燃料电池系统功率作为输出进行能量管理策略的设计。仿真结果表明,所提策略的百公里氢耗量与动态规划策略相比仅相差1.27%,且燃料电池系统的平均功率波动降低了5.01%,因此可有效提升整车的经济性和耐久性。
燃料电池汽车因其零排放、能量转换效率高、续航里程长等优点近年来备受关
燃料电池汽车能量管理策略可分为规则型、优化型和学习型3大
通过以上文献分析可见,燃料电池汽车能量管理策略的目标是在行驶过程中更好地分配不同动力源间的需求功率以获得较好的整车经济性和耐久性,强化学习算法是一种能够让机器是通过不断尝试和试错,累加和学习经验,最终在环境中拿到高分的智能算法,非常适合用来解决功率分配这类问题。基于此,本文构建了城市道路交通模型并提取路况信息进行了车速预测研究,同时基于预测车速结合强化学习深度确定性策略梯度算法(deep deterministic policy gradient,DDPG)进行能量管理策略的设计。仿真结果显示,整车经济性和耐久性均得到了较好的提升。
本文所研究的燃料电池汽车的动力系统型式为并联式,即燃料电池和锂离子电池分别通过DC/DC变换器和DC/AC变换器与功率总线相连,两动力源均可单独向驱动电机供电。动力系统由燃料电池系统、锂离子电池、驱动电机、DC/DC变换器、DC/AC变换器、主减速器等部件组成。具体结构如

图1 燃料电池汽车动力系统构型
Fig.1 Architecture of FCV powertrain
部件 | 参数 | 参数值 |
---|---|---|
燃料电池系统 | 额定功率/kW | 50 |
峰值功率/kW | 60 | |
锂离子电池 | 容量/(A·h) | 37 |
总线额定电压/V | 350 | |
最大电流/A | 100 | |
持续电流/A | 72 | |
荷电状态允许范围/% | 5-95 | |
驱动电机 | 峰值功率/kW | 160 |
最大转速/(r/min) | 12000 |
燃料电池建模采用功率效率模型,其功率与效率关系如

图2 燃料电池系统功率与效率关系曲线
Fig2 Fuel cell system power versus efficiency
本文选择VISSIM软件进行城市道路交通模型的搭建,具体如

图3 道路交通模型示意图
Fig3 Schematic diagram of traffic modell
车辆在城市道路行驶过程中,其车速受前车的运行状态影响较大,因此在搭建的模型中我们除了提取目标车辆的车速与加速度,还提取前车的车速与加速度,这四部分将共同作为车辆预测算法的输入。
车速数据通常可以看作为一种随时间变化的物理量,那么车速预测问题则可以被当成时间序列问题进行处理。基于长短期记忆神经网络(long short-term memory,LSTM)作为一种特殊的循环神经网络,可以通过对比当前与过去输入信息来优化网络参数,使之更适合处理和预测事件序列,因而能有效处理车速预测问题,故本节将采用LSTM进行车速预测算法的设计。
所采用的LSTM结构如

图4 LSTM结构图
Fig.4 Architecture of LSTM
车辆功率分配是一个连续的控制过程,而强化学习中的DDPG算法适合处理优化控制问题中控制变量和状态变量都连续的问题,故本节将采用DDPG算法进行能量管理策略的设计。
DDPG算法由策略神经网络和评价神经网络两部分构成,策略神经网络和评价神经网络又各包含了两个神经网络,即当前网络和目标网络。其中策略当前网络和策略目标网络的输入分别为研究对象的当前和下一时刻的状态,输出分别为当前状态和下一时刻状态下所采取的动作。评价当前网络和目标网络的输入分别为研究对象当前的状态和动作与下一时刻的状态和动作,输出为当前状态和动作的价值以及下一时刻状态和动作的价值,算法的具体流程如
DDPG算法流程 |
---|
输入: 策略当前网络参数 输出: 最优的策略当前网络参数 1. 随机初始化 2. for 回合数=1∶M do 获得初始状态S1 for t =1∶T do a) 基于策略当前网络,输入状态St得到动作At=μ(St)+Nt b) 执行动作At, 得到新状态St+1和奖励Rt c) 将(St, At, Rt, St+1)存入P d) 令St = St+1 e) 从P中随机采样n个样本(Si, Ai, Ri, Si+1),i=1,2,…,n, 计算当前目标Q值yi
f) 基于均方差损失函数,通过梯度反向传播更新评价当前网络的参数 g) 基于损失函数,通过梯度反向传播更新策略当前网络的参数 h) 当M % f =1,更新评价目标网络和策略目标网络参数: end for end for |
(3) |
式中:α是氢耗量的权重;β是锂离子电池SOC维持的权重;SOCref是SOC的参考值(本文取0.6);γ是燃料电池系统效率的权重;efffc是燃料电池系统效率;ω是燃料电池系统输出功率变化的权重;Pfsc(t)和Pfcs(t-1)是燃料电池系统当前时刻的输出功率和上一时刻的输出功率。奖励函数的负号表示DDPG算法将朝着使奖励值更大的方向优化函数参数。

图 6 能量管理策略运作机理
Fig.6 Principle of EMS
通过采用预测车速作为训练数据对DDPG算法进行训练,得出训练好的燃料电池系统和锂离子电池的输出功率变化曲线如

图7 燃料电池系统输出功率
Fig.7 The output power of fuel cell system

图8 锂离子电池输出功率
Fig.8 The output power of lithium-ion battery

图9 锂离子电池SOC
Fig.9 SOC curve of lithium-ion battery
策略 | SOC 终值 | 百公里氢 耗量/kg | 燃料经济性差异/% | 平均功率波动/kW | 功率波动差异/% |
---|---|---|---|---|---|
DP | 0.6 | 1.814 | - | 1.776 | - |
DDPG | 0.6 | 1.837 | 1.27 | 1.687 | -5.01 |
为了维持锂离子电池的SOC的首末值平衡,需要对DDPG策略奖励函数中参数β以及DP策略中成本函数的SOC惩罚项参数进行调节。从
将一个循环工况的氢耗等比例换算成百公里氢耗量,可以看出DDPG策略的百公里氢耗量与DP策略的百公里氢耗量相差仅1.27%,整车经济性达到了近似最优的水平。此外,由于在奖励函数中考虑了燃料电池功率变化这一因素,因而在策略的优化过程中,DDPG算法将会在满足动力性的前提下限制燃料电池功率的剧烈变化,从
本文用于训练策略网络的路况数据基于具有城市实际交通状况特征的道路交通模型所导出,具有较高的复杂性和随机性,故策略在面对其他复杂程度的工况数据时可以通过不断地训练优化以适应新工况,适应性和鲁棒性较强。在实车应用过程中,基于车辆历史工况数据对DDPG策略的参数进行训练优化,再将训练好的策略刷写进整车控制器中,DDPG策略根据预测车速进行功率的实时分配和输出,满足实车应用需求。
本文设计了一种基于路况信息和强化学习DDPG算法的燃料电池汽车能量管理策略。首先在VISSIM中搭建交通模型并提取了所需路况信息,再基于路况信息和LSTM进行车速预测算法的设计,最后基于DDPG算法开发了能量管理策略。得出的主要结论如下:
(1) 基于前车车速和加速度、本车车速和加速度等信息对车辆速度进行预测,预测误差数量级达到1
(2) 基于DDPG算法的能量管理策略得到整车百公里氢耗量与DP策略相差仅1.27%,同时限制了运行过程中燃料电池系统输出功率的剧烈变化,平均功率波动较DP策略降低了5.01%,有效提升了整车经济性和耐久性。
在未来的研究工作中,会将更多影响燃料电池汽车耐久性的因素与本文所设计的强化学习策略相互结合进行研究,以期进一步提升整车经济性和寿命。
参考文献
CHEN H, SONG Z, ZHAO X, et al. A review of durability test protocols of the proton exchange membrane fuel cells for vehicle[J]. Applied Energy, 2018, 224: 289. DOI: 10.1016/j.apenergy.2018.04.050. [百度学术]
YUE M, JEMEI S, GOURIVEAU R, et al. Review on health-conscious energy management strategies for fuel cell hybrid electric vehicles: Degradation models and strategies[J]. International Journal of Hydrogen Energy, 2019, 44(13): 6844. DOI: 10.1016/j.ijhydene.2019.01.190. [百度学术]
倪如尧, 刘金玲, 许思传. 燃料电池汽车能量管理控制策略研究[J]. 汽车实用技术, 2019(1): 34. DOI:10.16638/j.cnki.1671-7988.2019.01.011. [百度学术]
NI Ruyao, LIU Jinling, Xu Sichuan. Current research of energy management strategies for FCHEVs: A review[J]. Automobile Applied Technology, 2019(1): 34. DOI: 10.16638/j.cnki.1671-7988.2019.01.011. [百度学术]
LIN X, WANG Z, WU J. Energy management strategy based on velocity prediction using back propagation neural network for a plug-in fuel cell electric vehicle[J]. International Journal of Energy Research, 2020, 45(2): 2629. DOI: 10.1002/er.5956. [百度学术]
MUÑOZ P M, CORREA G, GAUDIANO M E, et al. Energy management control design for fuel cell hybrid electric vehicles using neural networks[J]. International Journal of Hydrogen Energy, 2017, 42(48): 28932. DOI: 10.1016/j.ijhydene.2017.09.169. [百度学术]
林歆悠, 夏玉田, 魏申申. 基于增强学习算法的插电式燃料电池电动汽车能量管理控制策略[J]. 工程科学学报, 2019, 41(10): 1332. DOI: 10.13374 /j.issn2095--9389.2018.10.15.001. [百度学术]
LIN Xinyou, XIA Yutian, WEI Shenshen. Energy management control strategy for plug-in fuel cell electric vehicle based on reinforcement learning algorithm[J]. Chinese Journal of Engineering, 2019, 41(10): 1332. DOI: 10.13374 /j.issn2095--9389.2018.10.15.001. [百度学术]